收藏本站
《软件学报》 2006年09期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于机器学习的文本分类技术研究进展

苏金树  张博锋  徐昕  
【摘要】:文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.
【作者单位】国防科学技术大学计算机学院 国防科学技术大学计算机学院 国防科学技术大学计算机学院
【关键词】自动文本分类 机器学习 降维 核方法 未标注集 偏斜数据集 分级分类 大规模文本分类 Web页分类
【基金】:Nos.90604006, 60303012 (国家自然科学基金) No.20049998027 (国家教育部高校博士点基金)~~
【分类号】:TP181
【正文快照】:
随着信息技术的发展,互联网数据及资源呈现海量特征.为了有效地管理和利用这些分布的海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域.其中,文本分类(text categorization,简称TC)技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(label)

【引证文献】
中国重要会议论文全文数据库 前4条
1 黄文良;李石坚;刘菊新;徐从富;;大规模垃圾短信实时过滤系统的设计与实现[A];中国通信学会第五届学术年会论文集[C];2008年
2 刘健;张维明;;基于文本概念序列的非线性分析方法初探[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 王辉;左万利;;利用质心向量构建增量式分类器(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前4条
1 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
2 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
3 潘冠宇;基于粗糙集和群体智能的数据挖掘方法研究[D];吉林大学;2007年
4 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 周广城;粒度计算模型及其应用[D];浙江师范大学;2006年
2 王俊英;基于科技文献的中文文本分类算法研究[D];燕山大学;2007年
3 江川;基于AUC的SVM多类分类算法的优化[D];武汉科技大学;2007年
4 张桂林;中文文本自动分类系统的研究与实现[D];吉林大学;2007年
5 黄臻臻;基于体裁的中文网页分类[D];华侨大学;2007年
6 谷峰;中文网页层次分类研究[D];华侨大学;2007年
7 胡发连;基于概念短语的科技文献知识管理系统的研究与设计[D];中南大学;2007年
8 吴巧敏;基于支持向量机的文本分类算法研究[D];湖南大学;2007年
9 庞雅丽;基于统计的中文新闻网页分类技术研究[D];西北师范大学;2007年
10 蒋红;中文文本分类中文本表示及分类算法研究[D];浙江师范大学;2007年
【参考文献】
中国期刊全文数据库 前1条
1 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
【共引文献】
中国期刊全文数据库 前10条
1 马琳,罗铁坚,叶世伟;一种基于转导的预测算法及其在软件性能测试中的应用[J];计算机工程;2005年16期
2 宇缨;;支持向量机及其在自然语言处理中的应用[J];东莞理工学院学报;2007年01期
3 檀林,张永奎;一种基于迭代学习的文本分类器构造方法[J];电脑开发与应用;2004年02期
4 刘茂旺;林世平;;BOOSTING算法在多类多标签文本分类中的应用[J];福建电脑;2006年03期
5 姚志湘;杨锦瑜;张倩;刘雪颖;陈晓伟;;Boosting算法及其在化学数据挖掘中的应用[J];广西工学院学报;2006年04期
6 陈文庆,李勤,姚伽华;基于最大熵模型的垃圾邮件过滤技术[J];广西师范学院学报(自然科学版);2005年01期
7 李焕荣,林健;基于一类分类方法的多类分类及其应用[J];华南理工大学学报(自然科学版);2004年08期
8 李晓宇;张新峰;沈兰荪;;支持向量机(SVM)的研究进展[J];测控技术;2006年05期
9 肖江,张亚非;Boosting算法在文本自动分类中的应用[J];解放军理工大学学报(自然科学版);2003年02期
10 姜远;周志华;;基于词频分类器集成的文本分类方法[J];计算机研究与发展;2006年10期
中国重要会议论文全文数据库 前10条
1 SHI Yong-feng, ZHAO Yan-ping~+ School of Management and Economics, Beijing Institute of Technology, Beijing 100081, China;Comparison of Text Categorization Algorithms[A];Proceedings of the First Conference on Web Information System and Applications(WISA 2004)[C];2004年
2 Zhongda Lin, Kun Deng, Yanfen Hong (Department of Computer Science and Technology, Nanchang University, Nanchang 330029, China);Research of Web Pages Categorization[A];Rough集前景——粒计算理论国际论坛(2006)论文集[C];2006年
3 刘希玉;徐志敏;段会川;;基于支持向量机的创新分类器[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
4 SHI Yong-feng. ZHAO Yan-ping School of Management and Economics, Beijing Institute of Technology , Beijing 100081, China;Comparison of Text Categorization Algorithms[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
5 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
6 Yongwook Yoon;Changki Lee;Gary Geunbae Lee;;Systematic Construction of Hierarchical Classifier in SVM-based Text Categorization[A];Proceedings of the Conference First International Joint Conference on Natural Language Processing[C];2004年
7 Dragomir Radev;;Combining Labeled and Unlabeled Data for Learning Cross-document Structural Relationships[A];Proceedings of the Conference First International Joint Conference on Natural Language Processing[C];2004年
8 Grace NGAI;Marine CARPUAT;;N-fold Templated Piped Correction[A];Proceedings of the Conference First International Joint Conference on Natural Language Processing[C];2004年
9 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 谷波;刘开瑛;;决策树模型和最大熵模型在文本分类中的比较研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
2 沈掌泉;神经网络集成技术及其在土壤学中应用的研究[D];浙江大学;2005年
3 王泉德;机器学习及其在多Agent对策学习中的应用研究[D];武汉大学;2005年
4 陈久军;基于统计学习的图像语义挖掘研究[D];浙江大学;2006年
5 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
6 于玲;基于数据的复杂系统集成建模方法及其应用研究[D];浙江大学;2006年
7 刘广利;基于支持向量机的经济预警方法研究[D];中国农业大学;2003年
8 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
9 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
10 胡明;Web中文信息智能获取与分类研究[D];吉林大学;2005年
中国硕士学位论文全文数据库 前10条
1 沈抖;万维网上数据处理方法的研究[D];清华大学;2004年
2 周鹏;神经网络集成算法研究及在基因表达数据分析中的应用[D];华中科技大学;2004年
3 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
4 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
5 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
6 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
7 张利军;数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能[D];西北工业大学;2003年
8 乐斌;Boosting算法研究及其在光谱分析中的应用[D];浙江大学;2004年
9 蒋伟贞;基于类别的特征选择算法的文本分类系统[D];西南交通大学;2004年
10 彭雅;文本分类算法及其应用研究[D];湖南大学;2004年
【同被引文献】
中国期刊全文数据库 前10条
1 代永卫;司志刚;费华平;;基于数据仓库的公安决策支持系统设计[J];微计算机信息;2007年18期
2 杨海青;;数据挖掘技术在医院管理中的应用[J];中华医院管理杂志;2005年07期
3 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期
4 张焕炯,王国胜,钟义信;基于汉明距离的文本相似度计算[J];计算机工程与应用;2001年19期
5 晋耀红;基于语义的文本过滤系统的设计与实现[J];计算机工程与应用;2003年17期
6 李峰;李芳;;中文词语语义相似度计算——基于《知网》2000[J];中文信息学报;2007年03期
7 余刚;裴仰军;朱征宇;陈华月;;基于词汇语义计算的文本相似度研究[J];计算机工程与设计;2006年02期
8 霍华,冯博琴;基于压缩稀疏矩阵矢量相乘的文本相似度计算[J];小型微型计算机系统;2005年06期
9 刘桂花;宋承祥;刘弘;;云发生器的软件实现[J];计算机应用研究;2007年01期
10 范并思;胡小菁;;图书馆2.0:构建新的图书馆服务[J];大学图书馆学报;2006年01期
中国重要会议论文全文数据库 前7条
1 王会珍;朱靖波;季铎;张斌;;基于多向量模型的中文话题追踪[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 陈建美;林鸿飞;杨志豪;;基于贝叶斯模型的词汇情感消歧[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 张琼;陈群秀;;面向网络的问答系统研究综述[A];第一届学生计算语言学研讨会论文集[C];2002年
4 刘怀军;车万翔;刘挺;;中文语义角色标注的特征工程[A];第三届学生计算语言学研讨会论文集[C];2006年
5 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
6 伍建军;康耀红;;关于文本分类中特征降维方式的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 罗亚平;王枞;周延泉;;基于关注度的热点话题发现模型[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 丁连红;基于信息流的个性化服务研究[D];中国科学院研究生院(计算技术研究所);2006年
2 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
3 吴介;基于图像内容的手部特征识别研究[D];北京交通大学;2008年
4 赵晖;支持向量机分类方法及其在文本分类中的应用研究[D];大连理工大学;2006年
5 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
6 丁国栋;基于统计语言建模的信息检索及相关研究[D];中国科学院研究生院(计算技术研究所);2006年
7 包胜华;基于Web的实体信息搜索与挖掘研究[D];上海交通大学;2008年
8 王煜;基于决策树和K最近邻算法的文本分类研究[D];天津大学;2006年
9 张燕平;基于商空间的构造性数据挖掘方法及应用[D];安徽大学;2003年
10 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
中国硕士学位论文全文数据库 前10条
1 吕涛;基于J2EE架构的社保信息系统的开发[D];国防科学技术大学;2005年
2 赵蕊;基于WEKA平台的决策树算法设计与实现[D];中南大学;2007年
3 彭红光;高校数字图书馆个性化服务系统研究[D];华南师范大学;2005年
4 高丹;知识网格资源管理研究[D];华中师范大学;2005年
5 李旭芳;我国图书馆个性化信息服务实践中的问题研究[D];东北师范大学;2007年
6 任美睿;数字图书馆中词频提取和自动文本分类方法的研究[D];黑龙江大学;2002年
7 高岭;Deep Web分类搜索引擎关键技术研究[D];苏州大学;2007年
8 李春玲;文本挖掘在垃圾邮件过滤中的应用研究[D];中国人民大学;2008年
9 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
10 彭时名;中文文本分类中特征提取算法研究[D];重庆大学;2006年
【二级引证文献】
中国硕士学位论文全文数据库 前2条
1 冯国良;数据挖掘在信息管理系统中的应用研究[D];天津工业大学;2008年
2 孔凡壬;基于本体的制造业领域Web信息集成[D];广西师范大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 徐栋;;机器学习在网络攻击检测中的应用[J];河南科技;2011年13期
2 赵玉鹏;;论机器学习[J];安阳工学院学报;2011年04期
3 陈可佳;;社会网络分析中的机器学习技术综述[J];南京邮电大学学报(自然科学版);2011年03期
4 段晓阳;马卉芳;韩志杰;王冠男;;无线传感器网络入侵检测系统研究综述[J];电脑知识与技术;2011年13期
5 仇颉;;基于机器学习的墙壁图样演化系统[J];微处理机;2011年03期
6 梁春林;;动态免疫网络在臭氧浓度监测中的应用[J];计算机工程与设计;2011年06期
7 程险峰;李军;李雄飞;;一种基于欠采样的不平衡数据分类算法[J];计算机工程;2011年13期
8 张仁津;唐翠芳;刘彬;;基于人工神经网络游戏程序的研究和设计[J];广西师范大学学报(自然科学版);2011年02期
9 常新功;沈亮;景丽荣;;用于图学习的主干图核方法[J];计算机技术与发展;2011年08期
10 安兴;刘志文;时永刚;吕传峰;;一种加权学习矢量量化算法[J];模式识别与人工智能;2011年03期
中国重要会议论文全文数据库 前10条
1 吴宪祥;于培松;万旻;倪伟;郭宝龙;;RoboCup中智能体的参数优化和学习[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
2 杨磊;黎志成;胡斌;;基于人工神经网络的调度规则确定专家系统[A];第七届计算机模拟与信息技术学术会议论文集[C];1999年
3 赵凯;王珏;;对人的适应以及在机器人路径规划中的应用[A];2001年中国智能自动化会议论文集(上册)[C];2001年
4 夏卫峰;费敏锐;;遗传算法及其在一类多智能体系统中的应用[A];2001年中国智能自动化会议论文集(下册)[C];2001年
5 左月明;Shantanu Chakrabartty;;一种多通道生物传感器的支持矢量机技术(英文)[A];农业系统工程理论与实践研究——全国农业系统工程学术研讨会论文集[C];2006年
6 王秉卿;张奇;吴立德;黄萱菁;;机器学习的查询扩展在博客检索中的应用[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
7 陈振兴;贲可荣;;机器学习在软件预测与评估中的应用[A];2006年全国理论计算机科学学术年会论文集[C];2006年
8 何晏成;关毅;岳淑珍;;一个基于免疫机制的在线机器学习算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 吕韶义;刘复岩;;基于决策树的规则获取[A];第七届计算机模拟与信息技术学术会议论文集[C];1999年
10 章成志;;基于机器学习的文本聚类描述算法研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前6条
1 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
2 记者  彭德倩;机器学习精度提升近6个百分点[N];解放日报;2006年
3 ;搜索引擎将引入人工智能技术[N];人民邮电;2006年
4 沈建苗 编译;人工智能步入壮年期[N];计算机世界;2009年
5 乐天 编译;用人工智能自动优化程序代码[N];计算机世界;2009年
6 许元;人工智能,人类对自身的挑战[N];人民日报;2011年
中国博士学位论文全文数据库 前10条
1 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
2 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
3 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
4 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
5 钟志;基于异常行为辨识的智能监控技术研究[D];上海交通大学;2008年
6 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年
7 陈慧灵;面向智能决策问题的机器学习方法研究[D];吉林大学;2012年
8 陈晓林;基于动态代价敏感的机器学习研究[D];华中科技大学;2010年
9 马笑潇;智能故障诊断中的机器学习新理论及其应用研究[D];重庆大学;2002年
10 熊毅;基于机器学习的蛋白质结合位点特征化和预测方法研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 王晶;支持向量机及其在癌症诊断中的应用研究[D];东北师范大学;2006年
2 万辉;自主载体语义级环境建模和规划的研究与实现[D];沈阳工业大学;2006年
3 马波;支持向量机多类分类算法的分析与设计[D];扬州大学;2008年
4 李琼;基于机器学习的本体概念映射研究[D];西安工业大学;2010年
5 隋春荣;概念学习中Find-S算法和后选删除算法的比较研究[D];河北大学;2004年
6 刘华煜;基于支持向量机的机器学习研究[D];大庆石油学院;2005年
7 杨雪;支持向量机多类分类方法的研究[D];哈尔滨工程大学;2006年
8 李祥亮;一种基于张量场的数据约简方法及应用研究[D];苏州大学;2009年
9 陈建国;人工神经网络在地区天气预报系统中的应用[D];电子科技大学;2006年
10 聂斌;复杂分类问题的研究和模糊集再分类模型[D];华东师范大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026