收藏本站
《中文信息学报》 2002年06期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种新的基于统计的自动文本分类方法

刘斌  黄铁军  程军  高文  
【摘要】:自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征 ,能够更好地反映文档的统计分布。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中 ,互联网和文本库提供了大量经过粗分类的训练文本 ,但普遍存在样本质量较差的问题 ,本文通过样本重要性分析技术解决此问题。实验系统证明了新方法的有效性。

【引证文献】
中国期刊全文数据库 前10条
1 罗永莲,张永奎;基于混合特征的中文文本分类[J];电脑开发与应用;2005年04期
2 宋东风;张志浩;;短文本数据的自动分类[J];电脑与信息技术;2007年01期
3 庄世芳;林世平;陈旭晖;苏芳仲;;基于概念集和粗集的中文Web文本挖掘特征提取的研究[J];福建电脑;2006年02期
4 胡佳妮,徐蔚然,郭军,邓伟洪;中文文本分类中的特征选择算法研究[J];光通信研究;2005年03期
5 丁晓剑;赵银亮;李远成;;基于SVM的二次下降有效集算法[J];电子学报;2011年08期
6 王昌厚;罗永莲;;基于突发事件新闻网页的文本分类方法研究[J];长治学院学报;2006年02期
7 骆昌日;张新华;何婷婷;骆世广;;基于DCM的中文文本分类[J];计算机工程与应用;2006年34期
8 康平波,王文杰;基于自动分类的网页机器人[J];计算机工程;2003年21期
9 康平波,王文杰;基于自动分类的搜索引擎过滤系统[J];计算机工程;2004年02期
10 康平波,田永鸿,黄铁军;智能化网页资源收集工具的设计与实现[J];计算机工程;2004年04期
中国重要会议论文全文数据库 前3条
1 卢娇丽;郑家恒;;基于粗糙集的文本分类方法研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 孙雄勇;罗霄;;中图分类法体系下的自动分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 雷小锋;夏征义;谢昆青;;SROC:一种面向结构鲁棒性的迭代聚类方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
中国博士学位论文全文数据库 前7条
1 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
2 钱铁云;关联文本分类关键技术研究[D];华中科技大学;2006年
3 吴科;基于机器学习的文本分类研究[D];上海交通大学;2008年
4 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
5 史旻昱;基于RSS的个性化网络广告推荐系统研究[D];华中科技大学;2008年
6 王振华;布尔向量数据模式分类关键问题及中医诊断量表研制[D];北京交通大学;2009年
7 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
2 周登;基于N-Gram模型的藏文文本分类技术研究[D];西北民族大学;2010年
3 陈雅芳;中文文本分类方法研究[D];浙江大学;2010年
4 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
5 赵彦军;基于词条数学期望的词条权重计算算法研究[D];安徽工业大学;2010年
6 吕斐斐;学位论文预审分配管理系统研究[D];哈尔滨工业大学;2010年
7 骆昌日;基于统计方法的中文文本自动分类研究[D];华中师范大学;2004年
8 吴娟;军用信息自动分类的研究与实现[D];南京理工大学;2004年
9 章兰;一种基于VSM模型的动态文本分类器的设计[D];苏州大学;2004年
10 贝雨馨;基于意义信息增益的文本特征项权重计算方法[D];延边大学;2004年
【参考文献】
中国期刊全文数据库 前2条
1 吴军,王作英,禹锋,王侠;汉语语料的自动分类[J];中文信息学报;1995年04期
2 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
【共引文献】
中国期刊全文数据库 前10条
1 胡锡衡;;垃圾邮件过滤系统模型的研究与设计[J];鞍山师范学院学报;2009年02期
2 曹锋;张代远;;文本分类技术研究[J];电脑知识与技术;2009年32期
3 韩惠琴,刘柏嵩,董其军;知识发现在数字图书馆中的应用[J];大学图书馆学报;2001年01期
4 周水庚,关佶红,胡运发;无需词典支持和切词处理的中文文档分类[J];高技术通讯;2001年03期
5 胡锡衡;;径向基函数在文本分类中的应用[J];鞍山师范学院学报;2011年02期
6 郭淼霞;;中文网页分类研究综述[J];赤峰学院学报(自然科学版);2011年12期
7 杨柳;张俊芝;;浅谈聚类算法及其存在的问题[J];产业与科技论坛;2012年02期
8 陈勤,张国煊,王小华;文本自动模糊分类方法的研究[J];杭州电子工业学院学报;1999年04期
9 王小华,张国煊,陆蓓;文本分类系统的评价因素探讨[J];杭州电子工业学院学报;2002年03期
10 陈勤,张国煊,王小华,陆蓓,赵葆华;基于模糊模式识别的文本自动分类法研究[J];浙江大学学报(理学版);2000年03期
中国重要会议论文全文数据库 前2条
1 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
2 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
2 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
5 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
6 吴翔;产品4D信息模型的基础技术研究[D];武汉理工大学;2005年
7 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
8 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
9 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
10 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年
中国硕士学位论文全文数据库 前10条
1 涂传唐;基于行为识别的反垃圾邮件技术的探讨[D];华东师范大学;2010年
2 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
3 管瑞霞;基于基因表达式编程的中文文本关键词提取算法研究[D];杭州电子科技大学;2009年
4 周婷;异构信息源的领域人物信息抽取研究[D];哈尔滨工业大学;2010年
5 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
6 王崑崙;中文网页自动分类的一种实现[D];大连理工大学;2002年
7 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
8 曹渝昆;基于RDF的个性化服务模型[D];重庆大学;2002年
9 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
10 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
【同被引文献】
中国期刊全文数据库 前10条
1 李晓红;田军委;;面向FCM聚类阈值分割的聚类有效性判别函数[J];安徽大学学报(自然科学版);2007年05期
2 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
3 刘洋;关注暗潮涌动的短信“泛滥”[J];电信建设;2003年03期
4 唐菁;Web文本挖掘系统及聚类算法的研究[J];电信建设;2004年02期
5 张世英;相同·相似·相通——关于“共相”的本体论地位问题新论[J];北京大学学报(哲学社会科学版);2004年03期
6 丁丰,董娜,林碧琴,袁保宗;自然语言处理系统中自动分词的研究[J];北方交通大学学报;1999年06期
7 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
8 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
9 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
10 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
中国重要会议论文全文数据库 前6条
1 肖健;沈彩霞;;浅谈数据挖掘技术现状[A];广西计算机学会2008年年会论文集[C];2008年
2 吴微;陈维强;刘波;;用BP神经网络预测股票市场涨跌[A];Optimization Method, Econophysics and Risk Management--Proceedings of CCAST (World Laboratory) Workshop[C];2001年
3 李正学;吴微;;引入技术指标的BP网络在沪市综合指数涨跌预测中的应用[A];Data Analysis, Econo-physics and Risk Management--Proceedings of CCAST (World Laboratory) Workshop[C];2001年
4 孙丽华;王洪俊;肖诗斌;施水才;;规则分类在文本自动分类中的应用[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
5 万中英;王明文;廖海波;左家莉;;维数约简在网页分类中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 伍大勇;赵世奇;刘挺;张宇;;融合多类特征的Web查询意图识别[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 吴涛;构造性知识发现方法研究[D];安徽大学;2003年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 李俭川;贝叶斯网络故障诊断与维修决策方法及应用研究[D];中国人民解放军国防科学技术大学;2002年
5 邓爱林;电子商务推荐系统关键技术研究[D];复旦大学;2003年
6 于洪;Rough Set理论及其在数据挖掘中的应用研究[D];重庆大学;2003年
7 杨旭华;神经网络及其在控制中的应用研究[D];浙江大学;2004年
8 王萍;基于数据挖掘技术的消费者行为研究[D];吉林大学;2004年
9 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
10 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
中国硕士学位论文全文数据库 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
3 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
4 白慧;基于产品设计领域的名词短语语义分析[D];西安电子科技大学;2004年
5 骆昌日;基于统计方法的中文文本自动分类研究[D];华中师范大学;2004年
6 杨静;基于粗糙集合和信息熵的分类模型研究[D];合肥工业大学;2004年
7 张友志;数据挖掘中关联规则的研究与应用[D];成都理工大学;2004年
8 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
9 张滨;中文文档分类技术研究[D];武汉大学;2004年
10 杨瑞峰;WEB上基于文本挖掘的个性化检索系统的设计与实现[D];电子科技大学;2003年
【二级引证文献】
中国期刊全文数据库 前10条
1 程卫华;尤晋元;;基于内容过滤的反垃圾邮件系统的设计与实现[J];安徽大学学报(自然科学版);2007年03期
2 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
3 高影繁;马润波;刘玉树;;一种快速文本归类算法的设计与实现[J];北京理工大学学报;2006年12期
4 黄文良;李石坚;刘菊新;徐从富;;一个大规模垃圾短信实时过滤系统[J];北京邮电大学学报;2008年03期
5 朱颢东;周姝;钟勇;;结合ODF和辨识集的特征选择[J];重庆邮电大学学报(自然科学版);2010年01期
6 董振兴;李荣;陈龙;;一种基于主动学习和TCM-EKNN的邮件过滤方法[J];重庆邮电大学学报(自然科学版);2011年01期
7 刘洋;曹津宁;刘昊;秦玉平;;基于贝叶斯方法的垃圾邮件处理模型研究[J];长春工程学院学报(自然科学版);2007年03期
8 张兢;候旭东;吕和胜;;基于朴素贝叶斯和支持向量机的短信智能分析系统设计[J];重庆理工大学学报(自然科学版);2010年01期
9 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
10 田林;;基于SMTP会话控制的主动式垃圾邮件过滤技术的研究[J];楚雄师范学院学报;2009年06期
中国重要会议论文全文数据库 前10条
1 薛征;廖闻剑;;基于位置权重和实体识别的关键词提取[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
2 张艳;李毅;顾健;;垃圾邮件与反垃圾邮件新技术追踪[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 董学春;胡学钢;谢飞;吴共庆;;基于词向量空间模型的文本分类方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
4 张迪;郑德权;赵铁军;于浩;;Blog网页分类与识别技术研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 黄文良;李石坚;刘菊新;徐从富;;大规模垃圾短信实时过滤系统的设计与实现[A];中国通信学会第五届学术年会论文集[C];2008年
6 倪茂树;林鸿飞;;基于词共现概念的文本分类研究[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
7 万中英;王明文;廖海波;;一种新的投影寻踪计算方法及在文本分类中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 苏绥;林鸿飞;叶正;;基于字符语言模型的垃圾邮件过滤[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 赵纪元;罗霄;;面向中图法的学术文献自动分类研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
2 曹渝昆;基于神经网络和模糊逻辑的智能推荐系统研究[D];重庆大学;2006年
3 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
4 何申;面向3G移动通信网络的安全框架研究[D];中国科学技术大学;2007年
5 王佐成;基于纹理的遥感图像分类研究[D];西南交通大学;2007年
6 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
7 储节旺;企业应对危机的知识管理问题研究:能力、体系、机制与技术[D];南昌大学;2006年
8 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
9 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
10 钱铁云;关联文本分类关键技术研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 刘维会;不平衡数据集上支持向量机算法研究[D];山东科技大学;2010年
5 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
6 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
7 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
8 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
9 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
10 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
【二级参考文献】
中国期刊全文数据库 前1条
1 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
【相似文献】
中国重要会议论文全文数据库 前8条
1 任美睿;李建中;杨艳;;基于朴素贝叶斯方法的自动文本分类系统的实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 吴哲;袁媛;杜小勇;刘怡;;基于简单事件框架和关键字的自动文本分类[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 贺瑞芳;钟绍春;程晓春;;教学资源的个性化搜索引擎研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 邹嘉彦;;评述新闻报道或文章色彩-正负两极性自动分类的研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 李立宇;唐世渭;杨冬青;叶恒强;王腾蛟;;COMMIX-Classifier—自动网页分类系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
6 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 闫光辉;李战怀;吴海军;;基于Z-Ordering技术的分形属性选择方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
8 岳昆;李劲;石磐;刘惟一;;基于语义的Web服务主题自动抽取[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国博士学位论文全文数据库 前1条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
中国硕士学位论文全文数据库 前10条
1 毛伟;基于统计语言模型的中文自动文本分类系统[D];北京邮电大学;2006年
2 丁宬杰;搜索引擎技术的研究与实现[D];上海交通大学;2007年
3 刘斌;数字图书馆中基于统计的自动文本分类方法研究[D];中国科学院研究生院(计算技术研究所);2002年
4 朱望斌;自动文本分类算法研究[D];湖南大学;2005年
5 旺建华;中文文本分类技术研究[D];吉林大学;2007年
6 杜英;基于人工免疫机制的Web文本分类研究[D];电子科技大学;2007年
7 张若峰;基于实例的文本自动分类技术的研究与实现[D];吉林大学;2005年
8 马哲;垃圾邮件过滤系统的研究与实现[D];浙江大学;2005年
9 吴鹏;支持向量机文本分类算法的研究及其应用[D];大连理工大学;2009年
10 陈海军;一类基于贝叶斯算法的反垃圾邮件系统的研究与实现[D];湖南大学;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026