收藏本站
《河北大学学报(自然科学版)》 2005年03期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于词条聚合和决策树的文本分类方法

王煜  张明  马力  
【摘要】:根据词条聚合和决策树原理,提出了一种文本分类的新方法.决策树分类方法具有出色的数据分析效率和容易抽取易于理解的分类规则等优势,但只能应用于维数较低的特征空间.本方法将与各个类别相关程度相似的词条聚合为一个特征,有效地降低了向量空间的维数,然后再使用决策树进行分类,从而既保证了分类精度又获得了决策树易于抽取分类规则的优势.

【引证文献】
中国硕士学位论文全文数据库 前2条
1 尚旭祥;基于关联的中文文本分类系统的设计与实现[D];解放军信息工程大学;2006年
2 徐学可;网页文本分类及其在搜索引擎中的应用[D];北京工业大学;2008年
【参考文献】
中国期刊全文数据库 前2条
1 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期
2 孟庆春,王汉萍,魏天滨,葛艳,高云;一种基于粗糙集的文本分类规则抽取方法[J];青岛海洋大学学报(自然科学版);2003年06期
【共引文献】
中国期刊全文数据库 前10条
1 舒坚;郑诚;陈振;;基于关联分类方法的Web使用挖掘研究[J];安徽大学学报(自然科学版);2006年02期
2 吴焕瑞,张红霞;数据库技术的新发展与新特点[J];保定师范专科学校学报;2004年02期
3 高洪歌;赵会群;;关联规则挖掘在乒乓球比赛技战术分析中的应用[J];北方工业大学学报;2006年01期
4 李燕琴;一种生态旅游者的识别与细分方法——以北京市百花山自然保护区为例[J];北京大学学报(自然科学版);2005年06期
5 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
6 姚晔,李翔;决策树算法的教育应用探讨[J];江西师范大学学报(自然科学版);2004年04期
7 朱惠倩;聚类分析的一种改进方法[J];湖南文理学院学报(自然科学版);2005年03期
8 田苗苗;数据挖掘之决策树方法概述[J];长春大学学报;2004年06期
9 徐卓揆,刘德钦,林宗坚,袁长丰;WebGIS与基于网络的数据挖掘整合应用研究[J];测绘科学;2004年03期
10 卢辉斌,王拥军;入侵检测中的数据挖掘技术[J];燕山大学学报;2003年04期
中国重要会议论文全文数据库 前10条
1 Chenggen Shi and Jie Lu Faculty of Information Technology, University of Technology, Sydney Po Box 123, Broadway, NSW 2007, Australia;An Information Retrieval Model by Using Weighting Technology[A];Proceedings of the Second International Conference on Information and Management Sciences[C];2003年
2 Nuanwan Soonthornphisaj;Kanokwan Chaikulseriwat;Piyanan Tang-On;;Anti-Spam Filtering: A Centroid-Based Classification Approach[A];2002 6~(th) International Conference on Signal Processing Proceedings[C];2002年
3 SHI Hong-Bo;WANG Zhi-Hai;HUANG Hou-Kuan;Jing Li-Ping School of Computer and Information Technology, Northem Jiaotong University, Beiing, 100044;Text Classification Based on the TAN Model[A];2002 IEEE Region 10 Conference on Computers, Communications, Control and Power Engineering Proceedings[C];2002年
4 Huang Ke;Ma Shaoping State Key Lab of Intelligent Technology and Systems, Department of Computer Science and Technology, Tsinghua University, 100084, Beijing, China;Text Categorization Based On Concept Indexing and Principal Component Analysis[A];2002 IEEE Region 10 Conference on Computers, Communications, Control and Power Engineering Proceedings[C];2002年
5 Son Doan;Susumu Horiguchi;;A COMPARATIVE STUDY OF ROCHIO AND NAIVE BAYES ALGORITHMS ON REUTERS DATASET IN TEXT CATEGORIZATION[A];Proceedings of the Eleventh International Fuzzy Systems Association World Congress(Volume Ⅰ)[C];2005年
6 周雪忠;方青;吴朝晖;;中文文本分类特征表示及分类方法比较研究[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
7 Xinhao WANG, Dingsheng LUO, Xihong WU, Huisheng CHI National Laboratory on Machine Perception, School of Electronics Engineering & Computer Science, Peking University, No.5 Summer Palace Road, Handian District, Beijing, 100871;Improving Chinese Text Categorization by Outlier Learning[A];Proceedings of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering[C];2005年
8 Shoushan LI and Chengqing ZONG National Laboratory of Pattern Recognition, Institute of Automation Chinese Academy of Sciences, Beijing 100080,China;A New Approach to Feature Selection for Text Categorization[A];Proceedings of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering[C];2005年
9 Fan SUN and Maosong SUN State Key Laboratory of Intelligent Technology and Systems, Department of Computer Science & Technology, Tsinghua University, Beijing 100084, China;A New Transductive Support Vector Machine Approach to Text Categorization[A];Proceedings of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering[C];2005年
10 唐明珠;张远平;杨佳;;基于背景知识的SVM文本分类[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 刘丹红;各类疾病住院患者危重度分级研究[D];中国人民解放军第四军医大学;2003年
2 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
3 周海燕;空间数据挖掘的研究[D];中国人民解放军信息工程大学;2003年
4 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
5 向继东;基于数据挖掘的自适应入侵检测建模研究[D];武汉大学;2004年
6 姜灵敏;商业银行信贷风险控制计算模型与算法优化研究[D];中南大学;2003年
7 符海芳;网络地理信息组织和提取的研究及其在农业信息中的应用[D];中南大学;2003年
8 宋艳;CRM中基于CABOSFV改进算法的客户聚类研究[D];哈尔滨工程大学;2004年
9 崔广才;基于粗糙集的数据挖掘方法研究[D];吉林大学;2004年
10 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
中国硕士学位论文全文数据库 前10条
1 黄辉宇;基于神经网络的不良信息实时监测系统研究[D];燕山大学;2003年
2 周威成;信息过滤方法的研究与应用[D];华北电力大学(北京);2003年
3 程玉柱;基于汉字数学表达式的中文文本零水印方法研究[D];湖南大学;2005年
4 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
5 陈红英;Internet信息过滤Agent的研究和实现[D];广东工业大学;2002年
6 杨昂;文本分类算法研究[D];湖南大学;2002年
7 任美睿;数字图书馆中词频提取和自动文本分类方法的研究[D];黑龙江大学;2002年
8 石霞军;邮件信息过滤算法研究与实现[D];湖南大学;2002年
9 宗士强;潜在语义索引在飞机故障案例检索的中应用[D];南京航空航天大学;2003年
10 李欣;基于神经网络的数据挖掘方法研究[D];大庆石油学院;2003年
【同被引文献】
中国期刊全文数据库 前10条
1 杨晓懿,刘嘉勇,陈淑敏;SVM在文本自动分类中的应用[J];成都信息工程学院学报;2005年02期
2 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报(自然科学版);2003年03期
3 张俐,李晶皎,胡明涵,姚天顺;中文WordNet的研究及实现[J];东北大学学报(自然科学版);2003年04期
4 吴雅娟,柳培林 ,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期
5 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
6 杨晔,彭宏,林嘉宜,陈绍坚;一种有效特征词发现的贝叶斯文本分类方法[J];系统工程;2004年09期
7 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
8 姜远;周志华;;基于词频分类器集成的文本分类方法[J];计算机研究与发展;2006年10期
9 代六玲,黄河燕,陈肇雄;一种用于文本分类的语义SVM及其在线学习算法[J];计算机工程与应用;2004年36期
10 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
中国硕士学位论文全文数据库 前1条
1 陈波;中文WEB文档自动分类的研究与实现[D];武汉理工大学;2005年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 宁登鹏;垂直搜索引擎中的多元化信息融合检索研究[D];浙江大学;2008年
【二级参考文献】
中国期刊全文数据库 前3条
1 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
2 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
3 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
【相似文献】
中国期刊全文数据库 前10条
1 申红;吕宝粮;内山将夫;井佐原均;;文本分类的特征提取方法比较与改进[J];计算机仿真;2006年03期
2 周雪芹;刘建舟;邵雄凯;廖力;;中文文本分类中特征提取的方法[J];湖北工业大学学报;2010年02期
3 石敏;康耀红;;一种联合的文本分类特征抽取函数[J];海南大学学报(自然科学版);2005年04期
4 洪智勇;秦克云;;基于模糊软集合理论的文本分类方法[J];计算机工程;2010年13期
5 杨彦闯;杨炳儒;张克君;;基于联合提取特征的粗糙集文本分类技术研究[J];计算机应用研究;2007年07期
6 徐燕;李锦涛;王斌;孙春明;张森;;文本分类中特征选择的约束研究[J];计算机研究与发展;2008年04期
7 刘海峰;王元元;姚泽清;陈琦;;文本分类中一种基于选择的二次特征降维方法[J];情报学报;2009年01期
8 史岳鹏;张明慧;朱颢东;;新的结合互信息和粗糙集的特征选择[J];计算机工程与应用;2011年16期
9 王煜,张明,马力;基于词条聚合和决策树的文本分类方法[J];河北大学学报(自然科学版);2005年03期
10 史会峰,谷根代,卢艳霞;基于贝叶斯扩张树的文本分类算法[J];华北电力大学学报;2004年05期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 陈毅恒;秦兵;刘挺;林建国;李生;;基于错误预测的文本分类方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
5 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
6 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
9 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国重要报纸全文数据库 前2条
1 希安;微软试水信息检索[N];经济日报;2004年
2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
2 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
3 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
4 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
5 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
6 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
7 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
8 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
9 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年
10 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年
中国硕士学位论文全文数据库 前10条
1 赵小华;KNN文本分类中特征词权重算法的研究[D];太原理工大学;2010年
2 吕靖;互联网搜索词分类关键技术研究[D];浙江大学;2011年
3 范小丽;文本分类中特征选择的研究与实现[D];西北大学;2011年
4 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
5 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
6 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
7 闫晨;KNN文本分类研究[D];燕山大学;2010年
8 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
9 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
10 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026