收藏本站
《计算机工程》 2010年09期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

文本分类特征权重改进算法

台德艺  王俊  
【摘要】:TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。

知网文化
【相似文献】
中国期刊全文数据库 前10条
1 吴志峰,田学东;基于概念的文本分类中的人名、地名处理研究[J];微机发展;2005年03期
2 钱晓东,王正欧;基于改进KNN的文本分类方法[J];情报科学;2005年04期
3 王宝智,向永才,武汉民,李雅琴;对机械产品零件的构成及特征分布规律统计分析的初步探讨[J];石油大学学报(自然科学版);1986年01期
4 刘钢,胡四泉,范植华,王勇,张彤;神经网络在文本分类上的一种应用[J];计算机工程与应用;2003年36期
5 付雪峰,王明文;基于模糊-粗糙集的文本分类方法[J];华南理工大学学报(自然科学版);2004年S1期
6 靳小波,夏清国;基于ε-KLD的文本分类方法[J];计算机工程与应用;2005年16期
7 陆蓓!信息工程分院,王小华!信息工程分院,陈勤!信息工程分院;基于多智能体的文本分类模型[J];杭州电子工业学院学报;1999年04期
8 寇莎莎,魏振军;自动文本分类中权值公式的改进[J];计算机工程与设计;2005年06期
9 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
10 陈治纲,何丕廉,孙越恒,郑小慎;基于向量空间模型的文本分类系统的研究与实现[J];中文信息学报;2005年01期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 任函;何婷婷;;大规模在线文本的自动分类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
6 房一飞;张冬茉;;基于boosting的文本分类在股市领域信息抽取系统中的应用[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 张锦;李光;曹伍;胡瑞芬;;基于主成分分析的自动文本分类模型[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
9 董学春;胡学钢;谢飞;吴共庆;;基于词向量空间模型的文本分类方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
10 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 刘克光;粤西掘“金”挖“银”有前景[N];中国矿业报;2006年
3 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
4 季谭 王晴 柯欣颖;WHO:半年后人禽流感病例或急剧增加[N];第一财经日报;2006年
5 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
6 希安;微软试水信息检索[N];经济日报;2004年
7 中信证券股份有限公司研究咨询部;上市公司市盈率:是高是低 谁高谁低[N];经济日报;2003年
8 ;两个女报人的生养行为分析[N];北京科技报;2004年
9 林漫群 刘庆斌;通用小型汽油机“功率”强劲[N];经济日报.农村版;2006年
10 ;防洪减灾应重视洪灾损失评估[N];中国水利报;2005年
中国博士学位论文全文数据库 前10条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
4 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
5 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
6 赵晖;支持向量机分类方法及其在文本分类中的应用研究[D];大连理工大学;2006年
7 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
8 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
9 邵虹;基于内容的医学图像检索关键技术研究[D];东北大学;2005年
10 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
中国硕士学位论文全文数据库 前10条
1 付雪峰;基于模糊—粗糙集的文本分类模型[D];江西师范大学;2005年
2 廖海波;基于投影寻踪回归的文本分类研究[D];江西师范大学;2005年
3 翟静;可扩展的文本分类系统的核心API的设计与实现[D];四川大学;2003年
4 靳小波;基于机器学习算法的文本分类系统[D];西北工业大学;2005年
5 沈贺丹;核心能力评价系统的分类模块研究[D];辽宁工程技术大学;2006年
6 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
7 黄海英;基于概念空间的文本分类的应用研究[D];广西师范大学;2002年
8 台德艺;基于特征权重算法的文本分类研究[D];合肥工业大学;2007年
9 杨昂;文本分类算法研究[D];湖南大学;2002年
10 梅胜;基于SVM的多层次大类别数文本分类系统(HJ-TCM)的设计与实现[D];南京理工大学;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978