收藏本站
《电脑知识与技术》 2009年36期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

文本分类算法中词语权重计算方法的改进

赵小华  马建芬  
【摘要】:在自动文本分类中,TFIDF公式是常用的词语权重计算公式。该方法简单易行,但仅仅考虑了特征词出现的频率,而忽略了特征词对区分每个类的贡献。针对这个不足,该文提出了TFIDF-CHI,来修正各个特征词的权重,重新调整每个特征词对各个类别的区分度,并用KNN分类器来验证其有效性。实验证明该方法优于原来的TFIDF算法,表明了改进的策略是可行的。

知网文化
【相似文献】
中国期刊全文数据库 前10条
1 史忠植;;超并行连接机[J];计算机研究与发展;1989年09期
2 黄昌宁;中文信息处理中的分词问题[J];语言文字应用;1997年01期
3 曾昭,邹阿金;Chebyshev神经网络模块SN9701及其应用[J];国外电子元器件;1998年11期
4 邓中亮;面向自动雕刻特征知识获取与搜索方法[J];计算机工程与设计;1998年04期
5 刘祖润,张志飞,邹阿金;基于单片机的Chebyshev神经网络硬件设计[J];半导体技术;1999年05期
6 杨清,杨岳湘,瞿国平;智能文本分类系统的研究与设计[J];计算机应用研究;1999年10期
7 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
8 李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期
9 刘祖润,曾喆昭,张志飞,邹阿金;Chebyshev神经网络电路设计[J];煤矿自动化;1999年06期
10 陶兰,申军霞;文本信息自动分类系统ITC98(Ⅰ)──ITC98总体结构与编码子系统[J];中国农业大学学报;1999年04期
中国重要会议论文全文数据库 前10条
1 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 秦兵;郑实福;刘挺;张刚;李生;;基于改进的贝叶斯模型的中文网页分类器[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 孙晓明;马少平;;基于写作风格的作者识别[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 房一飞;张冬茉;;基于boosting的文本分类在股市领域信息抽取系统中的应用[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 苏毅;吴文虎;郑方;方棣棠;;基于支持向量机的语音识别研究[A];第六届全国人机语音通讯学术会议论文集[C];2001年
8 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
9 殷苌茗;陈焕文;谢丽娟;;基于最大期望学习算法的无标识文本分类[A];2002中国控制与决策学术年会论文集[C];2002年
10 金千里;赵军;徐波;;弱指导的统计隐含语义分析及其在跨语言信息检索中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前4条
1 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
2 希安;微软试水信息检索[N];经济日报;2004年
3 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
4 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
中国博士学位论文全文数据库 前10条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
4 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
5 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
6 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
7 赵晖;支持向量机分类方法及其在文本分类中的应用研究[D];大连理工大学;2006年
8 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
9 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
10 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 孙良;一种分布式智能信息检索系统的研究与实现[D];浙江大学;2002年
3 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
4 郭琰;元搜索引擎的关键技术研究及系统实现[D];南京理工大学;2002年
5 杨昂;文本分类算法研究[D];湖南大学;2002年
6 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
7 石霞军;邮件信息过滤算法研究与实现[D];湖南大学;2002年
8 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
9 陈乐;基于智能文本分类技术的素材管理软件的设计与开发[D];南京师范大学;2003年
10 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978