收藏本站
《北京工业大学学报》 2006年05期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于特征信息增益权重的文本分类算法

李文斌  刘椿年  陈嶷瑛  
【摘要】:为了在分类精度不受损失的情况下提高训练速度,设计了3种基于信息增益(information gain,简称IG) 特征权重的分类算法,分别被命名为:IG-C1、IG-C2、IG-C.它们根据特征对IG贡献的大小及在新文本中出现的次数进行分类.这3种算法都具有较低的时间复杂度和实现简单的特点.实验结果表明,其中IG-C的分类效果最为理想.

【引证文献】
中国期刊全文数据库 前7条
1 张娟;高克峰;张曦;;可拓多过滤器融合方法[J];福建电脑;2011年01期
2 张玉芳;陈小莉;熊忠阳;;基于信息增益的特征词权重调整算法研究[J];计算机工程与应用;2007年35期
3 任克强;张国萍;赵光甫;;基于相对文档频的平衡信息增益降维方法[J];江西理工大学学报;2008年05期
4 穆俊鹏;董魁锋;张明;;基于动态特征库的电子邮件分类的研究[J];计算机与现代化;2012年07期
5 杨玉珍;刘培玉;朱振方;邱烨;;应用特征项分布信息的信息增益改进方法研究[J];山东大学学报(理学版);2009年11期
6 尤鸣宇;陈燕;李国正;;不均衡问题中的特征选择新算法:Im-IG[J];山东大学学报(工学版);2010年05期
7 李文斌;陈嶷瑛;刘椿年;刘泰峰;;邮件过滤算法的比较[J];计算机工程与设计;2008年17期
中国博士学位论文全文数据库 前1条
1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
【参考文献】
中国期刊全文数据库 前1条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
【共引文献】
中国期刊全文数据库 前10条
1 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
2 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
3 屈赟;杨捧;张文静;;基于信息粒度的主题相似性信息检索[J];河北农业大学学报;2011年01期
4 白凤凤;;基于不平衡数据集的文本分类技术研究[J];电脑编程技巧与维护;2010年06期
5 张红;;基于语义的中文搜索引擎研究[J];电脑知识与技术;2009年08期
6 王成强;;基于不平衡数据集的文本分类技术[J];电脑知识与技术;2009年36期
7 陈炎龙;张志明;;基于向量空间模型的英文文本难度判定[J];电脑知识与技术;2010年12期
8 苏力华;朱章华;白文华;;基于向量空间模型的文本分类特征权重算法研究[J];电脑知识与技术;2010年33期
9 熊小梅;刘永浪;;基于LSA的二次降维法在中文法律案情文本分类中的应用[J];电子测量技术;2007年10期
10 王强;战忠丽;张凤君;;基于语义分组向量空间模型的Web新闻检索算法[J];电子科技;2011年04期
中国博士学位论文全文数据库 前10条
1 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
2 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
3 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
4 席运江;组织知识的网络表示模型及分析方法[D];大连理工大学;2007年
5 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
6 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
7 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
8 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
9 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
10 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 汪廷华;田盛丰;黄厚宽;廖年冬;;样本属性重要度的支持向量机方法[J];北京交通大学学报;2007年05期
2 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
3 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
4 邓擘;樊孝忠;杨立公;;基于统计分布与集合论的文本分类方法[J];北京理工大学学报;2006年07期
5 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
6 王知津;李明珍;;网站评价指标体系的构建方法与过程[J];图书与情报;2006年03期
7 李荣艳;金鑫;王春辉;郑宁;别荣芳;;一种新的中文文本分类算法[J];北京师范大学学报(自然科学版);2006年05期
8 刘植惠;;本体(Ontology)与语义网(Semantic Web)[J];重庆图情研究;2006年03期
9 李明杰;;特征抽取方法在网页分类中的应用[J];常熟理工学院学报;2005年04期
10 宋绍成,毕强,杨达;本体技术在学术研究领域中的应用[J];东北师大学报(自然科学版);2005年01期
中国博士学位论文全文数据库 前9条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
2 毛勇;基于支持向量机的特征选择方法的研究与应用[D];浙江大学;2006年
3 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
4 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
5 吴砥;学习资源管理与服务关键技术研究[D];华中科技大学;2006年
6 张波云;计算机病毒智能检测技术研究[D];国防科学技术大学;2007年
7 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
9 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
【二级引证文献】
中国期刊全文数据库 前10条
1 张青;熊前兴;;文本分类中词语权重计算的改进[J];电脑知识与技术;2011年01期
2 何玲;罗玉双;;基于相对比较法的文本特征提取[J];福建电脑;2010年01期
3 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
4 周雪芹;刘建舟;邵雄凯;廖力;;中文文本分类中特征提取的方法[J];湖北工业大学学报;2010年02期
5 亢俊健;杜在林;张新东;朱群英;;使用信息增益方法选择分类器[J];计算机工程与应用;2009年14期
6 李凯齐;刁兴春;曹建军;;基于信息增益的文本特征权重改进算法[J];计算机工程;2011年01期
7 杨玉珍;刘培玉;姜沛佩;;向量空间模型中结合句法的文本表示研究[J];计算机工程;2011年03期
8 陈培;高维;;恶意代码行为获取的研究与实现[J];计算机应用;2009年S2期
9 李道远;贾晓亮;田锡天;耿俊浩;朱军;;基于专利的工艺冲突矩阵挖掘方法研究[J];中国制造业信息化;2011年09期
10 刘新生;厉锟;;基于BP神经网络的旅游突发事件文本分类系统的设计与实现[J];计算机与现代化;2011年07期
中国博士学位论文全文数据库 前1条
1 陈圣兵;基于商空间理论的海量信息检索模型的研究[D];安徽大学;2010年
【二级参考文献】
中国期刊全文数据库 前1条
1 李凡,鲁明羽,陆玉昌;关于文本特征抽取新方法的研究[J];清华大学学报(自然科学版);2001年07期
【相似文献】
中国期刊全文数据库 前10条
1 石铁峰;;支持向量机在电子邮件分类中的应用研究[J];计算机仿真;2011年08期
2 干娟;;基于决策树算法的学生综合测评系统的设计[J];安徽电子信息职业技术学院学报;2011年04期
3 彭炜;;基于遗传算法的图像分类[J];山西师范大学学报(自然科学版);2011年02期
4 旷岭;;电信客户流失数据分析方案设计与应用研究[J];中南林业科技大学学报;2011年06期
5 贾娴;刘培玉;公伟;;应用于入侵取证的改进信息增益算法[J];计算机应用;2011年08期
6 李玲俐;;数据挖掘中分类算法综述[J];重庆师范大学学报(自然科学版);2011年04期
7 刘健;刘忠;;基于小波变换和支持向量机的水下目标分类方法[J];火力与指挥控制;2011年09期
8 周靖;;改进偏二叉树多类SVM的文本分类[J];广东石油化工学院学报;2011年04期
9 张琳;陈燕;李桃迎;牟向伟;;决策树分类算法研究[J];计算机工程;2011年13期
10 韦妍;;人脸表情识别概述[J];网络安全技术与应用;2011年08期
中国重要会议论文全文数据库 前10条
1 邹哲峰;刘明敬;郝明;;基于中心矩和熵组合特征的雷达目标一维距离像识别技术[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
2 朱晓霞;孙同景;陈桂友;;基于支持向量机理论的两级指纹分类实现方法[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
3 林土胜;赖声礼;;视网膜血管特征提取的拆支跟踪法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
4 钱小聪;郑宝玉;穆明鑫;;神经网络联机手写签名验证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
5 张羽;汪源源;王威琪;余建国;林继耕;;狭窄血管多普勒信号特征提取的实验研究[A];21世纪医学工程学术研讨会论文摘要汇编[C];2001年
6 柳林霞;陈杰;窦丽华;;不变矩理论及其在目标识别中的应用[A];2002中国控制与决策学术年会论文集[C];2002年
7 杨日杰;施建礼;林洪文;;一种雷达视频回波特征提取方法研究[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
8 代克杰;张红梅;盛赛斌;;基于BP网络的故障特征提取方法研究[A];2004中国控制与决策学术年会论文集[C];2004年
9 何新;史迎春;周献中;;一种基于独立分量分析的音频分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
10 范海宁;郭英;吴剑锋;陈志武;;基于小波包分解的声信号特征提取方法[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 ;SecuiWALL独创分类算法[N];计算机世界;2002年
2 本报记者  周松林;上证所XBRL基金信息分类获国际认证[N];中国证券报;2006年
3 彭兴庭;“熵”与环境承载力[N];中国绿色时报;2004年
4 证券时报记者  黄婷;上证所基金信息分类获国际认证[N];证券时报;2006年
5 黄鑫 李晶;信息分类网让信息互动起来[N];经济日报;2006年
6 俞路石;中科大研究生解决网络数据包有效分类算法[N];中国教育报;2007年
7 实习生 林莉君;“网格信息分类目录”解决电子政务建设瓶颈[N];科技日报;2004年
8 小非;汉王“文本仪”瞄准行业[N];计算机世界;2007年
9 燕海霞;王忆勤;李福凤;脉象信号研究日渐深入[N];中国医药报;2005年
10 记者  胡春玲 程媛;用工信息分类“上架”郑州人力资源“超市”开张了[N];中国劳动保障报;2006年
中国博士学位论文全文数据库 前10条
1 孙蕾;医学图像智能挖掘关键技术研究[D];西北大学;2005年
2 张旗;基于属性的图像分类研究[D];大连海事大学;2005年
3 张立福;通用光谱模式分解算法及植被指数的建立[D];武汉大学;2005年
4 苏彩红;墙地砖质量自动检测技术的研究[D];华南理工大学;2004年
5 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年
6 宋晴;基于液滴分析技术和液滴指纹图的液体识别方法的研究[D];天津大学;2005年
7 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年
8 王立鹏;特征提取及分类算法在膜蛋白分类预测问题中的应用[D];兰州理工大学;2010年
9 孙真真;基于光学区雷达目标二维像的目标散射特征提取的理论及方法研究[D];中国人民解放军国防科学技术大学;2001年
10 武子玉;矿物近红外光谱信息提取及应用研究[D];吉林大学;2005年
中国硕士学位论文全文数据库 前10条
1 周燕峰;基于时频谱熵的往复式压缩机故障诊断及应用[D];大连理工大学;2006年
2 李坤;运动意识脑电分类及基于VC++的脑机接口实验系统[D];安徽大学;2007年
3 许红涛;一种基于eEPs的中文文本自动分类算法[D];郑州大学;2006年
4 孙晓平;基于DSA图像的脑血管瘤辅助诊断研究[D];苏州大学;2009年
5 刘光明;ID3算法的研究及在以政府决策为主题的挖掘系统中的应用[D];南昌大学;2006年
6 乔素娟;基于SVM的中文垃圾邮件的识别研究[D];山西财经大学;2006年
7 田慧;支持向量机集成及在音乐分类中的应用[D];山东师范大学;2009年
8 郭瑞勇;基于独立分量分析和支持向量机的纹理图像分类研究[D];哈尔滨理工大学;2009年
9 张丽;基于投影寻踪的高光谱影像特征提取与自动识别技术研究[D];长安大学;2006年
10 张晓飞;基于支持向量机的图像信息分类与检索[D];沈阳大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026