收藏本站
《中文信息学报》 2004年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

中文文本分类中特征抽取方法的比较研究

代六玲  黄河燕  陈肇雄  
【摘要】:本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法 (IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。

【引证文献】
中国期刊全文数据库 前10条
1 韩戟;何成浩;苏星;施成云;刘东映;;一种基于SVM的电力行业物资需求预测方法[J];电气技术;2016年12期
2 王杰;李德玉;王素格;;面向非平衡文本情感分类的TSF特征选择方法[J];计算机科学;2016年10期
3 吕俊伟;樊利恒;石晓航;;基于形态学空间特征的高光谱遥感图像分类方法[J];光学技术;2016年05期
4 韦文娟;韩家新;夏海洋;;基于Python自然语言处理的文本分类研究[J];福建电脑;2016年07期
5 秦成磊;魏晓;;中文在线评论中的商品特征聚类研究[J];计算机应用与软件;2016年07期
6 李良强;徐华林;袁华;邵培基;;基于最大频繁模式的在线评论标签抽取[J];信息系统学报;2016年01期
7 宋钰婷;徐德华;;基于LDA和SVM的中文文本分类研究[J];现代计算机(专业版);2016年05期
8 梁昕露;李美娟;;电信业投诉分类方法及其应用研究[J];中国管理科学;2015年S1期
9 刘丹丹;邱恒清;赵应丁;;基于SVM的中文微博情感识别与分类研究[J];中国新通信;2015年21期
10 石雁;李朝锋;;结合统计和词间关系的文本关键词计算方法[J];计算机技术与发展;2015年12期
中国重要会议论文全文数据库 前10条
1 梁昕露;李美娟;;电信业投诉分类方法及其应用研究[A];第十七届中国管理科学学术年会论文集[C];2015年
2 Xiang Fang;;An Improved Apriori Algorithm on the Frequent Itemse[A];2013教育技术与信息系统国际会议论文集[C];2013年
3 ;A Graph-Based Text Similarity Algorithm[A];Information Technology and Computer Science—Proceedings of 2012 National Conference on Information Technology and Computer Science[C];2012年
4 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 郎加云;胡学钢;;电子邮件内容过滤的相关特征研究[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
6 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
7 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
8 赵纪元;罗霄;;面向中图法的学术文献自动分类研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
10 门洪;武玉杰;李小英;高艳春;;基于支持向量机的分类算法研究[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
中国博士学位论文全文数据库 前10条
1 徐华林;领域UGC文本中话题-特征关系抽取及应用研究[D];电子科技大学;2016年
2 张晓楠;基于案例推理的统计地图设计研究[D];解放军信息工程大学;2015年
3 张虎;面向中文文本的欺骗行为检测研究[D];山西大学;2014年
4 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
5 杨振舰;可视化数据挖掘技术在城市地下空间GIS中的应用研究[D];河北工业大学;2012年
6 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
7 马力;基于聚类分析的网络用户兴趣挖掘方法研究[D];西安电子科技大学;2012年
8 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
9 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
10 张博;多视点商品本体学习研究[D];武汉理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 陈茂榕;领域依赖的Web信息抽取系统设计与实现[D];东南大学;2016年
2 上官彦辉;基于投资者情绪的股票预测研究[D];北京工业大学;2016年
3 张亦俊;针对互联网公共服务的搜索引擎关键技术研究[D];东南大学;2016年
4 尹正梅;面向数字图书馆的电子期刊文献推荐的关键技术研究[D];安徽工业大学;2016年
5 梁军;基于深度学习的文本特征表示及分类应用[D];郑州大学;2016年
6 陈栋;基于改进TFIDF的混合模型文本分类方法研究[D];华中师范大学;2016年
7 谭小龙;基于微信公众号的文本分类研究[D];华中师范大学;2016年
8 秦成磊;Web文本挖掘若干关键问题研究及其在机电产品在线评测中的应用[D];上海应用技术大学;2016年
9 唐明霜;基于翻译模型的网络评论情感分析研究[D];电子科技大学;2016年
10 徐嘉成;基于k-means聚类和TF-IDF的新浪微博舆情分析[D];辽宁科技大学;2016年
【参考文献】
中国期刊全文数据库 前3条
1 朱寰,阮彤,于庆喜;文本分割算法对中文信息过滤影响研究[J];计算机工程与应用;2002年13期
2 孙丽华,张积东,李静梅;一种改进的kNN方法及其在文本分类中的应用[J];应用科技;2002年02期
3 何新贵,彭甫阳;中文文本的关键词自动抽取和模糊分类[J];中文信息学报;1999年01期
【共引文献】
中国期刊全文数据库 前10条
1 杨春艳;潘有能;赵莉;;基于语义和引用加权的文献主题提取研究[J];图书情报工作;2016年09期
2 韩文智;;计算机文本信息挖掘技术在网络安全中的应用[J];华侨大学学报(自然科学版);2016年01期
3 朱丽萍;李洪奇;杨中国;刘蔷;;一种面向科技文献引言的信息抽取方法[J];山东大学学报(理学版);2015年07期
4 卢玲;王越;杨武;;一种基于朴素贝叶斯的中文评论情感分类方法研究[J];山东大学学报(工学版);2013年06期
5 王晓艳;梁晋春;姚颖颖;马艳;;广播电台数字音频资料库的自动标注及检索技术研究[J];计算机与现代化;2013年07期
6 冷伏海;白如江;祝清松;;面向科技文献的混合语义信息抽取方法研究[J];图书情报工作;2013年11期
7 王燕;;基于相邻词的中文关键词自动抽取研究[J];科技致富向导;2012年26期
8 孟海东;刘小荣;;基于聚类分析的图模型文档分类[J];计算机应用与软件;2012年01期
9 王立霞;淮晓永;;基于语义的中文文本关键词提取算法[J];计算机工程;2012年01期
10 何泉昊;樊兴华;周鹏;;基于两步策略的文本分类方法实验研究[J];广西师范大学学报(自然科学版);2011年04期
【同被引文献】
中国期刊全文数据库 前10条
1 刘旭;;基于Python自然语言处理工具包在语料库研究中的运用[J];昆明冶金高等专科学校学报;2015年05期
2 李志清;;基于LDA主题特征的微博转发预测[J];情报杂志;2015年09期
3 吕海燕;张杰;王丽娜;;基于聚类分析的微博用户标签自动生成[J];电子设计工程;2015年07期
4 李锋刚;梁钰;GAO Xiao-zhi;ZENGER Kai;;基于LDA-wSVM模型的文本分类研究[J];计算机应用研究;2015年01期
5 刘海峰;姚泽清;苏展;;基于词频的优化互信息文本特征选择方法[J];计算机工程;2014年07期
6 程传鹏;苏安婕;;一种短文本特征词提取的方法[J];计算机应用与软件;2014年06期
7 郭雨萌;李国正;;一种多标记数据的过滤式特征选择框架[J];智能系统学报;2014年03期
8 许阳;刘功申;孟魁;;基于句中词语间关系的文本向量化算法[J];信息安全与通信保密;2014年04期
9 赵宇;黄思明;陈锐;;数据分类中的特征选择算法研究[J];中国管理科学;2013年06期
10 夏海峰;陈军华;;基于文本挖掘的投诉热点智能分类[J];上海师范大学学报(自然科学版);2013年05期
中国博士学位论文全文数据库 前10条
1 苏德国;基于知识学习的主动式统计地图制图服务模型研究[D];中国矿业大学(北京);2012年
2 钱宇华;复杂数据的粒化机理与数据建模[D];山西大学;2011年
3 冯涛;专题地图自动化制作的控制技术研究[D];解放军信息工程大学;2011年
4 张志军;基于规则引擎的地图注记自动配置方法研究[D];武汉大学;2011年
5 苏小兵;中学地理电子教学地图设计研究[D];华东师范大学;2011年
6 丁轶群;基于概率生成模型的文本主题建模及其应用[D];浙江大学;2010年
7 羊芙葳;谎言的识别研究[D];华中科技大学;2010年
8 肖泉;基于案例的机遇发现决策支持技术及其系统的研究[D];华中科技大学;2010年
9 寇广增;基于意见挖掘通用框架的情感极性强度模糊性研究[D];武汉大学;2010年
10 谢超;自适应地图可视化关键技术研究[D];解放军信息工程大学;2009年
中国硕士学位论文全文数据库 前7条
1 周二亮;微博短文本情感分析关键技术研究与实现[D];河北科技大学;2014年
2 李钰;微博情感词典的构建及其在微博情感分析中的应用研究[D];郑州大学;2014年
3 朱文君;Twitter情感分类及可视化的研究[D];武汉理工大学;2013年
4 魏博诚;中文分词交集型歧义处理研究[D];安徽大学;2011年
5 段飞;相似网页识别算法的研究与实现[D];北京邮电大学;2011年
6 曹卫峰;中文分词关键技术研究[D];南京理工大学;2009年
7 张卫;中文词性标注的研究与实现[D];南京师范大学;2007年
【二级引证文献】
中国期刊全文数据库 前1条
1 廖一星;严素蓉;;基于Python的中文文本分类的实现[J];福建电脑;2016年12期
中国博士学位论文全文数据库 前4条
1 张远红;基于中间件的G/S模式下数据交换可靠性和安全性方法研究[D];成都理工大学;2014年
2 邓伟萍;基于智能算法的洪灾综合评估模型研究[D];华中科技大学;2013年
3 张金松;基于引文上下文分析的文献检索技术研究[D];大连海事大学;2013年
4 周而重;博客舆情热点发现与分析[D];北京工业大学;2013年
【二级参考文献】
中国期刊全文数据库 前6条
1 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
2 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
3 薛翠芳,郭炳炎;汉语文本特征词的抽取方法[J];情报学报;2000年03期
4 王实;高文;;增强型朴素贝叶斯学习[J];计算机科学;2000年04期
5 李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期
6 何新贵,彭甫阳;中文文本的关键词自动抽取和模糊分类[J];中文信息学报;1999年01期
【相似文献】
中国期刊全文数据库 前10条
1 惠飞;赵祥模;;基于脉冲耦合神经网络的目标特征抽取方法[J];吉林大学学报(信息科学版);2010年05期
2 刘金铎;;介绍一种简单的符号特征抽取方法[J];电子计算机动态;1980年12期
3 白焱,彭嘉雄;一种新的图象特征抽取方法[J];计算机研究与发展;1994年02期
4 黄学东;方棣棠;胡起秀;;几种语音特征抽取方法和距离量度的实验研究[J];计算机应用与软件;1988年06期
5 郭一平;基于角度编码的几何特征抽取方法[J];计算机应用;1996年03期
6 严云洋;郭志波;杨静宇;;人脸识别特征抽取方法的研究进展[J];淮阴工学院学报;2007年03期
7 喻军;;几种典型特征抽取方法比较及其在人脸识别中的应用[J];江南大学学报(自然科学版);2009年05期
8 徐春明,张天平,王正群,王向东;一种新的核广义鉴别特征抽取方法[J];计算机应用;2005年09期
9 马柏樟;颜志军;;基于潜在狄利特雷分布模型的网络评论产品特征抽取方法[J];计算机集成制造系统;2014年01期
10 陈才扣;宋枫溪;刘永俊;杨静宇;;基于散度差准则的隐空间特征抽取方法[J];计算机科学;2006年12期
中国重要会议论文全文数据库 前1条
1 罗海飞;虞立群;章志凌;邵晓敏;陈林;汪更生;陈弈秋;何伟杰;;一种改进型CHI的特征抽取方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
中国博士学位论文全文数据库 前7条
1 林宇生;鉴别特征抽取方法及其在人脸识别中的应用研究[D];南京理工大学;2008年
2 王建国;特征抽取方法研究及其在人脸识别中的应用[D];南京理工大学;2008年
3 郭志波;人脸快速检测和特征抽取方法的研究[D];南京理工大学;2007年
4 严云洋;图像的特征抽取方法及其应用研究[D];南京理工大学;2008年
5 徐勇;几种线性与非线性特征抽取方法及人脸识别应用[D];南京理工大学;2004年
6 刘楠;面向微博短文本的情感分析研究[D];武汉大学;2013年
7 许建潮;Web挖掘中若干问题的研究[D];吉林大学;2005年
中国硕士学位论文全文数据库 前5条
1 戴丽丽;指关节图像的特征抽取方法研究[D];南京理工大学;2015年
2 班怀芸;基于模糊偏最小二乘的特征抽取方法研究[D];南京理工大学;2009年
3 许海娟;基于线性特征抽取方法的人脸识别的研究[D];华南理工大学;2010年
4 王飞;基于类间距离最大化的特征抽取方法研究[D];江西师范大学;2014年
5 侯钰;人脸识别中特征抽取方法的研究[D];扬州大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026