收藏本站
《光盘技术》 2009年06期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

文本分类中的特征提取方法的研究

姚学礼  
【摘要】:文本的特征提取是文本分类过程中的一个重要环节,它的好坏将直接影响文本分类的准确率。该文介绍了词条的统计方法(CHI)、词条与类别的互信息(MI)、信息增益(IG)、词条的期望交叉熵(CE)等文本特征提取方法,并对其取词策略进行了改进。
【作者单位】河南省政法管理干部学院;
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前2条
1 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期
2 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
【共引文献】
中国期刊全文数据库 前10条
1 李永健;王斌君;;垃圾短信过滤中的特征降维算法比较[J];中国人民公安大学学报(自然科学版);2008年03期
2 周如旗;基于扩展Petri网的文本分类模型[J];电脑与信息技术;2005年04期
3 孙铁利;张妍;李晓微;;文本挖掘中特征降维方法比较研究[J];电脑知识与技术;2008年02期
4 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
5 吴雅娟,柳培林 ,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期
6 张晶;;关于过滤垃圾短信方法的研究[J];电脑知识与技术;2008年23期
7 王琦;;自动分类技术研究[J];河南财政税务高等专科学校学报;2008年04期
8 苑俊英;袁方;刘博;;一种基于类别核心词的概念映射方法[J];广西师范大学学报(自然科学版);2007年02期
9 刘海峰;王元元;刘守生;;一种组合型中文文本分类特征选择方法[J];广西师范大学学报(自然科学版);2007年04期
10 刘世涛;;简析搜索引擎中网络爬虫的搜索策略[J];阜阳师范学院学报(自然科学版);2006年03期
中国重要会议论文全文数据库 前9条
1 陈文亮;朱慕华;朱靖波;姚天顺;;基于Bootstrapping的文本分类模型[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 张琼;陈群秀;;基于最大熵模型的语句自动分类研究[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
3 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十二届中国(天津)'2008IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2008年
9 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
2 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
3 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年
4 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
5 郭勇;基于语义的网络知识获取相关技术研究[D];国防科学技术大学;2007年
6 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
7 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
8 吴科;基于机器学习的文本分类研究[D];上海交通大学;2008年
9 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年
10 万国根;面向内容的网络安全监控模型及其关键技术研究[D];电子科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 刘巧凤;基于图结构的中文文本聚类方法研究[D];大连理工大学;2009年
2 赵国光;医学文献相似性研究[D];首都师范大学;2009年
3 梁帆;都市类报纸艾滋病报道框架研究[D];广西大学;2008年
4 李国安;基于数据挖掘的垃圾邮件过滤技术研究[D];内蒙古大学;2008年
5 林建国;基于句子排序和组合分类的中文文本分类方法研究[D];哈尔滨工业大学;2007年
6 汪浩平;基于K-均值的文本聚类分析[D];贵州大学;2008年
7 张舰波;基于内容的垃圾邮件智能过滤系统研究[D];贵州大学;2008年
8 赵博;一种基于关键向量的文本分类模型的研究[D];哈尔滨理工大学;2008年
9 谭冠群;基于多类软间隔支持向量机的文本分类问题研究[D];哈尔滨理工大学;2008年
10 吴锦霞;面向英语学习的文本难度判定[D];哈尔滨工业大学;2007年
【二级参考文献】
中国期刊全文数据库 前4条
1 刁倩,王永成,张惠惠,何骥;文本自动分类中的词权重与分类算法[J];中文信息学报;2000年03期
2 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
3 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
4 吴军,王作英,禹锋,王侠;汉语语料的自动分类[J];中文信息学报;1995年04期
【相似文献】
中国期刊全文数据库 前10条
1 马金娜;田大钢;;基于支持向量机的中文文本自动分类研究[J];系统工程与电子技术;2007年03期
2 马金娜;田大钢;;基于SVM的中文文本自动分类研究[J];计算机与现代化;2006年08期
3 李文;王炜立;洪胜华;;基于互信息的特征提取方法在中文法律案情文本分类中的改进及应用[J];科技广场;2006年11期
4 钱晓东,王正欧;基于改进KNN的文本分类方法[J];情报科学;2005年04期
5 吴志峰,田学东;基于概念的文本分类中的人名、地名处理研究[J];微机发展;2005年03期
6 吴岳芬;刘洪辉;;WEB文本挖掘的研究[J];电脑知识与技术(学术交流);2006年11期
7 李文;王炜立;;中文文本理解技术在法律案情文本分类中的应用[J];南昌大学学报(工科版);2007年01期
8 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[J];微电子学与计算机;2006年09期
9 李广原;一种特征词权重调整算法的研究[J];电脑与信息技术;2005年04期
10 寇苏玲;蔡庆生;;中文文本分类中的特征选择研究[J];计算机仿真;2007年03期
中国重要会议论文全文数据库 前10条
1 刘华;周凌燕;张普;;面向词典编撰的词汇聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
3 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
5 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 林明星;王晓华;管志光;丁凤华;赵永瑞;;基于差分码的图像特征提取方法研究[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
7 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 夏泽邑;刘冲;王跃宗;沙里瓦特;;基于平均局部熵的显微立体匹配算法[A];中国仪器仪表学会第五届青年学术会议论文集[C];2003年
10 陈桂明;王汉功;陈小虎;;铁谱磨粒图像处理与特征提取[A];第一届国际机械工程学术会议论文集[C];2000年
中国重要报纸全文数据库 前10条
1 燕海霞;王忆勤;李福凤;脉象信号研究日渐深入[N];中国医药报;2005年
2 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年
3 王竣;深入开发CAD系统对疾病诊断有重要意义[N];中国医药报;2007年
4 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
5 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
6 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
7 孙哲南 谭铁牛;生物识别的十大关键技术[N];计算机世界;2007年
8 记者 何腾江 通讯员 周汇成;验钞新技术通过鉴定[N];中山日报;2008年
9 本报记者 刘洪宇;当机器听懂了我们的声音[N];辽宁日报;2008年
10 方忠诚;OCR技术及其应用[N];北京电子报;2000年
中国博士学位论文全文数据库 前10条
1 赵晖;支持向量机分类方法及其在文本分类中的应用研究[D];大连理工大学;2006年
2 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
3 刘正军;高维遥感数据土地覆盖特征提取与分类研究[D];中国科学院研究生院(遥感应用研究所);2003年
4 张玮;金属腐蚀形貌特征提取用于腐蚀诊断的研究[D];大连理工大学;2004年
5 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
6 肖传伟;智能相机的设计研究[D];中国科学院研究生院(长春光学精密机械与物理研究所);2006年
7 陈立伟;基于HMM和ANN的汉语语音识别[D];哈尔滨工程大学;2005年
8 何永华;回顾性职业接触评估方法的研究及应用[D];复旦大学;2005年
9 孟继成;雷达目标距离像识别研究[D];电子科技大学;2005年
10 万相奎;心电信号分析与虚拟式心电自动分析仪的开发[D];重庆大学;2005年
中国硕士学位论文全文数据库 前10条
1 付雪峰;基于模糊—粗糙集的文本分类模型[D];江西师范大学;2005年
2 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
3 廖海波;基于投影寻踪回归的文本分类研究[D];江西师范大学;2005年
4 翟静;可扩展的文本分类系统的核心API的设计与实现[D];四川大学;2003年
5 陈伟萍;基于语义概念的中文文本分类研究[D];燕山大学;2006年
6 李文;公安执法监督管理中的文本理解技术的研究及其应用[D];南昌大学;2005年
7 靳小波;基于机器学习算法的文本分类系统[D];西北工业大学;2005年
8 谭新;基于语义特征提取的PU文本分类的研究与实现[D];吉林大学;2007年
9 郭飞;文本挖掘方法探讨及应用[D];成都理工大学;2006年
10 姚松源;文本自动分类系统的研究与实现[D];北京工业大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026