收藏本站
《中文信息学报》 2002年06期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种新的基于统计的自动文本分类方法

刘斌  黄铁军  程军  高文  
【摘要】:自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征 ,能够更好地反映文档的统计分布。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中 ,互联网和文本库提供了大量经过粗分类的训练文本 ,但普遍存在样本质量较差的问题 ,本文通过样本重要性分析技术解决此问题。实验系统证明了新方法的有效性。

知网文化
【相似文献】
中国重要会议论文全文数据库 前8条
1 任美睿;李建中;杨艳;;基于朴素贝叶斯方法的自动文本分类系统的实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 吴哲;袁媛;杜小勇;刘怡;;基于简单事件框架和关键字的自动文本分类[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 贺瑞芳;钟绍春;程晓春;;教学资源的个性化搜索引擎研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 邹嘉彦;;评述新闻报道或文章色彩-正负两极性自动分类的研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 李立宇;唐世渭;杨冬青;叶恒强;王腾蛟;;COMMIX-Classifier—自动网页分类系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
6 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 闫光辉;李战怀;吴海军;;基于Z-Ordering技术的分形属性选择方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
8 岳昆;李劲;石磐;刘惟一;;基于语义的Web服务主题自动抽取[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国博士学位论文全文数据库 前1条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
中国硕士学位论文全文数据库 前10条
1 毛伟;基于统计语言模型的中文自动文本分类系统[D];北京邮电大学;2006年
2 丁宬杰;搜索引擎技术的研究与实现[D];上海交通大学;2007年
3 刘斌;数字图书馆中基于统计的自动文本分类方法研究[D];中国科学院研究生院(计算技术研究所);2002年
4 朱望斌;自动文本分类算法研究[D];湖南大学;2005年
5 旺建华;中文文本分类技术研究[D];吉林大学;2007年
6 杜英;基于人工免疫机制的Web文本分类研究[D];电子科技大学;2007年
7 张若峰;基于实例的文本自动分类技术的研究与实现[D];吉林大学;2005年
8 马哲;垃圾邮件过滤系统的研究与实现[D];浙江大学;2005年
9 吴鹏;支持向量机文本分类算法的研究及其应用[D];大连理工大学;2009年
10 陈海军;一类基于贝叶斯算法的反垃圾邮件系统的研究与实现[D];湖南大学;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978