收藏本站
《计算机研究与发展》 2005年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

使用最大熵模型进行中文文本分类

李荣陆  王建会  陈晓云  陶晓鹏  胡运发  
【摘要】:随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Bayes,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法.

【引证文献】
中国期刊全文数据库 前6条
1 孙景广;蔡东风;吕德新;董燕举;;基于知网的中文问题自动分类[J];中文信息学报;2007年01期
2 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期
3 贾宁;;使用概念基元特征进行自动文本分类[J];计算机工程与应用;2007年01期
4 尚文倩;黄厚宽;刘玉玲;林永民;瞿有利;董红斌;;文本分类中基于基尼指数的特征选择算法研究[J];计算机研究与发展;2006年10期
5 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
6 钱晶;张杰;张涛;;基于最大熵的汉语人名地名识别方法研究[J];小型微型计算机系统;2006年09期
中国重要会议论文全文数据库 前4条
1 谷波;刘开瑛;;决策树模型和最大熵模型在文本分类中的比较研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 张玮;孙乐;冯元勇;吕元华;;一种结合分类模型的中文输入法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前5条
1 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
2 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
3 孟静;光学层析图像的重建技术研究[D];苏州大学;2006年
4 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
5 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年
中国硕士学位论文全文数据库 前10条
1 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
2 庞宁;基于最大熵模型的共指消解研究[D];山西大学;2007年
3 孙登林;基于概念网的不良信息过滤研究与实现[D];上海交通大学;2008年
4 贾丙静;聚类分析在Web文本挖掘中的应用研究[D];辽宁工程技术大学;2007年
5 徐学可;网页文本分类及其在搜索引擎中的应用[D];北京工业大学;2008年
6 高亚波;文本分类系统的设计与实现[D];北京交通大学;2008年
7 王春锋;基于整合文本挖掘方法的中医证与分子生物学知识的关联分析系统[D];北京交通大学;2008年
8 邸锦;基于支持向量机的文本分类问题的研究[D];北京交通大学;2008年
9 毛伟;基于统计语言模型的中文自动文本分类系统[D];北京邮电大学;2006年
10 叶浩;基于类信息的潜在语义多类文本分类模型研究[D];江西师范大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
2 尹中航,王永成,蔡巍;应用支持向量机进行网上信息自动分类[J];高技术通讯;2001年11期
3 唐懿芳 ,牛力 ,傅赛香 ,严小卫;文本的自动分类[J];广西师范大学学报(自然科学版);2001年04期
4 张玉芳;陈剑敏;熊忠阳;;一种改进的贝叶斯文本分类方法[J];广西师范大学学报(自然科学版);2007年02期
5 湛燕,陈昊,袁方,王丽娟;文本挖掘研究进展[J];河北大学学报(自然科学版);2003年02期
6 王煜,张明,马力;基于词条聚合和决策树的文本分类方法[J];河北大学学报(自然科学版);2005年03期
7 孙国菊,张杰;中文文本分类的特征选取评价[J];哈尔滨理工大学学报;2005年01期
8 陈丽,于浩,郑德权,赵铁军;基于文本内容的超链接分类研究[J];哈尔滨商业大学学报(自然科学版);2004年02期
9 李孝明,曹万华;舰载作战指挥系统软件构件库技术研究(续三):检索和管理[J];舰船电子工程;2005年03期
10 尚文倩;黄厚宽;刘玉玲;林永民;瞿有利;董红斌;;文本分类中基于基尼指数的特征选择算法研究[J];计算机研究与发展;2006年10期
中国重要会议论文全文数据库 前10条
1 Chenggen Shi and Jie Lu Faculty of Information Technology, University of Technology, Sydney Po Box 123, Broadway, NSW 2007, Australia;An Information Retrieval Model by Using Weighting Technology[A];Proceedings of the Second International Conference on Information and Management Sciences[C];2003年
2 Nuanwan Soonthornphisaj;Kanokwan Chaikulseriwat;Piyanan Tang-On;;Anti-Spam Filtering: A Centroid-Based Classification Approach[A];2002 6~(th) International Conference on Signal Processing Proceedings[C];2002年
3 SHI Hong-Bo;WANG Zhi-Hai;HUANG Hou-Kuan;Jing Li-Ping School of Computer and Information Technology, Northem Jiaotong University, Beiing, 100044;Text Classification Based on the TAN Model[A];2002 IEEE Region 10 Conference on Computers, Communications, Control and Power Engineering Proceedings[C];2002年
4 Huang Ke;Ma Shaoping State Key Lab of Intelligent Technology and Systems, Department of Computer Science and Technology, Tsinghua University, 100084, Beijing, China;Text Categorization Based On Concept Indexing and Principal Component Analysis[A];2002 IEEE Region 10 Conference on Computers, Communications, Control and Power Engineering Proceedings[C];2002年
5 Son Doan;Susumu Horiguchi;;A COMPARATIVE STUDY OF ROCHIO AND NAIVE BAYES ALGORITHMS ON REUTERS DATASET IN TEXT CATEGORIZATION[A];Proceedings of the Eleventh International Fuzzy Systems Association World Congress(Volume Ⅰ)[C];2005年
6 周雪忠;方青;吴朝晖;;中文文本分类特征表示及分类方法比较研究[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
7 Xinhao WANG, Dingsheng LUO, Xihong WU, Huisheng CHI National Laboratory on Machine Perception, School of Electronics Engineering & Computer Science, Peking University, No.5 Summer Palace Road, Handian District, Beijing, 100871;Improving Chinese Text Categorization by Outlier Learning[A];Proceedings of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering[C];2005年
8 Shoushan LI and Chengqing ZONG National Laboratory of Pattern Recognition, Institute of Automation Chinese Academy of Sciences, Beijing 100080,China;A New Approach to Feature Selection for Text Categorization[A];Proceedings of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering[C];2005年
9 Fan SUN and Maosong SUN State Key Laboratory of Intelligent Technology and Systems, Department of Computer Science & Technology, Tsinghua University, Beijing 100084, China;A New Transductive Support Vector Machine Approach to Text Categorization[A];Proceedings of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering[C];2005年
10 唐明珠;张远平;杨佳;;基于背景知识的SVM文本分类[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
2 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
3 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
4 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
5 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
6 赵晖;支持向量机分类方法及其在文本分类中的应用研究[D];大连理工大学;2006年
7 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
8 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
9 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年
10 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
中国硕士学位论文全文数据库 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 陈红英;Internet信息过滤Agent的研究和实现[D];广东工业大学;2002年
3 杨昂;文本分类算法研究[D];湖南大学;2002年
4 任美睿;数字图书馆中词频提取和自动文本分类方法的研究[D];黑龙江大学;2002年
5 石霞军;邮件信息过滤算法研究与实现[D];湖南大学;2002年
6 宗士强;潜在语义索引在飞机故障案例检索的中应用[D];南京航空航天大学;2003年
7 王汉萍;粗糙集理论在文本挖掘的分类算法中的应用研究[D];中国海洋大学;2003年
8 张利军;数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能[D];西北工业大学;2003年
9 胡蓉;中文Web文档倾向性自动分类研究[D];四川大学;2003年
10 湛燕;K-近邻、K-均值及其在文本分类中的应用[D];河北大学;2003年
【同被引文献】
中国期刊全文数据库 前10条
1 余小鹏;周德翼;;一种自适应k-最近邻算法的研究[J];计算机应用研究;2006年02期
2 何盈捷,刘惟一;由Markov网到Bayesian网[J];计算机研究与发展;2002年01期
3 王国胤;决策表核属性的计算方法[J];计算机学报;2003年05期
4 粟湘,焦微玲,吴沛;Web挖掘应用研究[J];情报理论与实践;2005年06期
5 李建民,张钹,林福宗;支持向量机的训练算法[J];清华大学学报(自然科学版);2003年01期
6 薛为民,石志国,王志良;基于隐马尔可夫模型的复杂数据挖掘实现[J];计算机工程;2003年09期
7 钟敏娟;郝谦;刘云中;;基于多模板隐马尔可夫模型的文本信息抽取算法[J];计算机工程;2006年02期
8 王飞,刘大有,王淞昕;基于遗传算法的Bayesian网结构增量学习的研究[J];计算机研究与发展;2005年09期
9 章志凌;虞立群;陈奕秋;罗海飞;邵晓敏;;基于Corpus库的词语相似度计算方法[J];计算机应用;2006年03期
10 胡俊峰 ,俞士汶;唐宋诗中词汇语义相似度的统计分析及应用[J];中文信息学报;2002年04期
中国重要会议论文全文数据库 前1条
1 罗亚平;王枞;周延泉;;基于关注度的热点话题发现模型[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 陈景年;选择性贝叶斯分类算法研究[D];北京交通大学;2008年
2 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
3 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
4 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
5 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
6 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
7 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
8 张凯;基于本体的Web信息集成若干关键技术研究[D];复旦大学;2004年
9 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
10 崔广才;基于粗糙集的数据挖掘方法研究[D];吉林大学;2004年
中国硕士学位论文全文数据库 前10条
1 徐莹莹;使用表单分类器识别特定领域的深度网入口[D];吉林大学;2007年
2 张慧城;L4D—一种有效的互联网实体抽取方法[D];浙江大学;2008年
3 孟祥国;多类文本分类的支持向量机网络[D];山东大学;2007年
4 马宏伟;基于SVM的中文文本分类系统的建模与实现[D];大连理工大学;2006年
5 吴雪敏;汉语语句的计算机分析[D];电子科技大学;2001年
6 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
7 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
8 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
9 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
10 姚松源;文本自动分类系统的研究与实现[D];北京工业大学;2003年
【二级引证文献】
中国博士学位论文全文数据库 前4条
1 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
2 潘冠宇;基于粗糙集和群体智能的数据挖掘方法研究[D];吉林大学;2007年
3 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
4 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
中国硕士学位论文全文数据库 前10条
1 柯慧燕;Web文本分类研究及应用[D];武汉理工大学;2006年
2 周广城;粒度计算模型及其应用[D];浙江师范大学;2006年
3 杨鹏;面向领域自然语言的文本自动分类及其在产品设计中的应用[D];西安电子科技大学;2007年
4 江川;基于AUC的SVM多类分类算法的优化[D];武汉科技大学;2007年
5 王俊英;基于科技文献的中文文本分类算法研究[D];燕山大学;2007年
6 张桂林;中文文本自动分类系统的研究与实现[D];吉林大学;2007年
7 孟伟涛;Web中文信息抽取技术研究及其在招聘信息系统中的应用[D];西北大学;2007年
8 余俊英;文本分类中特征选择方法的研究[D];江西师范大学;2007年
9 王钦;基于数据挖掘的智能答疑系统的研究与设计[D];济南大学;2007年
10 吴巧敏;基于支持向量机的文本分类算法研究[D];湖南大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 高金勇;徐朝军;冯奕竸;;基于迭代的TFIDF在短文本分类中的应用[J];情报理论与实践;2011年06期
2 李响;才藏太;姜文斌;吕雅娟;刘群;;最大熵和规则相结合的藏文句子边界识别方法[J];中文信息学报;2011年04期
3 唐云;罗俊松;;基于粗糙集和BP神经网络的文本分类研究[J];计算机仿真;2011年06期
4 胥桂仙;向春丞;翁彧;赵小兵;杨国胜;;基于栏目的藏文网页文本自动分类方法[J];中文信息学报;2011年04期
5 张国梁;肖超锋;;基于SVM新闻文本分类的研究[J];电子技术;2011年08期
6 刘新生;厉锟;;基于BP神经网络的旅游突发事件文本分类系统的设计与实现[J];计算机与现代化;2011年07期
7 王斌;朴顺姬;邵华清;;基于粗糙集的KNN的WEB文本分类的研究[J];数字技术与应用;2011年08期
8 张春元;;基于条件随机场的文本分类模型[J];计算机技术与发展;2011年07期
9 卢志翔;蒙丽莉;;文本分类中特征项权重算法的改进[J];柳州师专学报;2011年04期
10 甄志龙;曾晓勤;韩立新;;文本分类中基于图模型的特征提取方法[J];情报科学;2011年08期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 陈文亮;朱慕华;朱靖波;姚天顺;;基于Bootstrapping的文本分类模型[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 谷波;刘开瑛;;决策树模型和最大熵模型在文本分类中的比较研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
10 房一飞;张冬茉;;基于boosting的文本分类在股市领域信息抽取系统中的应用[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国重要报纸全文数据库 前2条
1 希安;微软试水信息检索[N];经济日报;2004年
2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
2 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
3 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
4 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
5 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
6 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
7 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
8 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
9 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
10 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
2 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
3 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
4 闫晨;KNN文本分类研究[D];燕山大学;2010年
5 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
6 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
7 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
8 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
9 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
10 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026