收藏本站
《北京邮电大学学报》 2001年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于K-最近距离的自动文本分类的研究

孙健  王伟  钟义信  
【摘要】:提出并实现了利用统计词频信息和语言信息相结合的方法选择特征 ,计算特征的权重值时不仅考虑词频 ,还利用了特征的集中度、分散度 .经过训练和统计对每一类文本形成特征的权重向量 ,利用 K-最近距离的方法对测试集进行分类 .对英文文本的测试结果表明 ,该算法提高了文本分类的准确率

【引证文献】
中国期刊全文数据库 前10条
1 代劲;胡峰;王国胤;;基于不完备信息系统的文本分类研究与应用[J];重庆邮电学院学报(自然科学版);2006年03期
2 陈建华,包煊;Web挖掘系统的设计与实现[J];计算机工程;2002年08期
3 李雪蕾,张冬茉;一种基于向量空间模型的文本分类方法[J];计算机工程;2003年17期
4 玛依来·哈帕尔;古丽拉·阿东别克;;哈萨克语文本分类系统的设计与实现[J];计算机工程;2011年05期
5 张志强,郑家恒;基于加权类轴的Web文本分类方法研究[J];计算机应用;2004年02期
6 胡于进,周小玲,凌玲,王学林;基于向量空间模型的贝叶斯文本分类方法[J];计算机与数字工程;2004年06期
7 陈亮;刘宗田;;一个基于向量空间模型的OUTLOOK垃圾邮件过滤器[J];计算机应用与软件;2005年12期
8 白如江;王效岳;;基于粗糙集理论和BP神经网络的文本自动分类方法研究[J];山东大学学报(理学版);2006年03期
9 秦颖;文秋芳;梁茂成;;应用随机特征码检测雷同译文[J];外语电化教学;2009年06期
10 施洁斌;基于支持向量机的文本自动分类试验研究[J];现代图书情报技术;2004年07期
中国重要会议论文全文数据库 前3条
1 董学春;胡学钢;谢飞;吴共庆;;基于词向量空间模型的文本分类方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
2 玛依来·哈帕尔;古丽拉·阿东别克;;基于K-最近距离方法的哈萨克语报纸分类初探[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 玛依来·哈帕尔;古丽拉·阿东别克;;基于K-最近距离方法的哈萨克语文本分类系统的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
中国博士学位论文全文数据库 前2条
1 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
2 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 周登;基于N-Gram模型的藏文文本分类技术研究[D];西北民族大学;2010年
2 黄美宁;基于用户行为分析的网页分类系统的研究与实现[D];北京邮电大学;2011年
3 许庚寅;基于粗糙集的Web文本分类技术研究[D];电子科技大学;2011年
4 侯艳钗;基于词语权重的中文文本分类算法的研究[D];河北工业大学;2011年
5 代学武;基于神经网络的用户建模和Web信息过滤研究[D];西南师范大学;2003年
6 王汉萍;粗糙集理论在文本挖掘的分类算法中的应用研究[D];中国海洋大学;2003年
7 刘军;基于论点倾向的网络信息内容实时分析研究[D];四川大学;2003年
8 张红霞;渐进式中文文本分类技术研究[D];河北大学;2004年
9 杨悦;基于内容的多媒体检索系统[D];天津大学;2003年
10 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年
【参考文献】
中国期刊全文数据库 前1条
1 李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期
【共引文献】
中国期刊全文数据库 前10条
1 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
2 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
3 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
4 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
5 李宁;徐虹;;基于文本分类的语义平滑在语言模型中的应用(英文)[J];成都信息工程学院学报;2008年03期
6 廖一星;潘雪增;;文本分类中基于逆云模型的特征选择方法[J];大连海事大学学报;2011年04期
7 孟佳娜;林鸿飞;李彦鹏;;基于特征贡献度的特征选择方法在文本分类中应用[J];大连理工大学学报;2011年04期
8 王皎;刘闫锋;;Hadoop集群参数的自动调优[J];电脑知识与技术;2012年12期
9 熊小梅;刘永浪;;基于LSA的二次降维法在中文法律案情文本分类中的应用[J];电子测量技术;2007年10期
10 郑德权;李生;赵铁军;于浩;;基于一种混合语言模型的自动文本分类技术研究[J];电子与信息学报;2007年03期
中国重要会议论文全文数据库 前10条
1 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
2 朱艳辉;王平;周咏梅;;一种基于Agent的中文Web信息自动检索系统(英文)[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
3 梁飞;吕洪波;姚锦峰;;舆情分析中语料库降维[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
4 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
5 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 邬郑;吕晓莉;晋耀红;;将HNC领域引入文本分类的尝试与探讨[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 朱琳;周水庚;;基于聚类的文本分类属性加权[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
2 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
3 孙珂;大规模文档标签自动标注技术研究[D];哈尔滨工业大学;2011年
4 梁艳红;基于专利挖掘的创新设计关键技术研究[D];河北工业大学;2011年
5 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
6 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
7 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
8 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
9 赵晖;支持向量机分类方法及其在文本分类中的应用研究[D];大连理工大学;2006年
10 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
3 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年
4 桑媛媛;基于非负稀疏表示的文本分类算法研究[D];大连理工大学;2010年
5 熊超;基于潜在语义对偶空间的跨语言文本分类研究[D];江西师范大学;2010年
6 孙海虹;基于模糊粗糙集的Web文本分类研究[D];哈尔滨理工大学;2010年
7 梁晔平;中文文本自动分类相关算法的研究与实现[D];华南理工大学;2010年
8 李保秀;中文文本分类技术研究[D];南昌大学;2010年
9 张庐颖;基于粗糙集的K-means研究[D];北京交通大学;2011年
10 吕靖;互联网搜索词分类关键技术研究[D];浙江大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 朱明星,张德龙;RBF网络基函数中心选取算法的研究[J];安徽大学学报(自然科学版);2000年01期
2 丁丰,董娜,林碧琴,袁保宗;自然语言处理系统中自动分词的研究[J];北方交通大学学报;1999年06期
3 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
4 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
5 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
6 张光卫;康建初;李鹤松;李德毅;;基于云模型的全局最优化算法[J];北京航空航天大学学报;2007年04期
7 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
8 李海鹰;图书馆知识管理的基本理念与策略[J];图书与情报;2004年04期
9 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报;2000年03期
10 林鸿飞,高天,姚天顺;中文文本的可视化表示[J];东北大学学报;2000年05期
中国重要会议论文全文数据库 前1条
1 赵妍妍;秦兵;刘挺;张俐;苏中;;基于多特征融合的句子相似度计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 毛国君;数据挖掘技术与关联规则挖掘算法研究[D];北京工业大学;2003年
2 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
3 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
4 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
5 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
6 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
7 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
8 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
9 冯国臻;基于结构分析的大规模WWW文本信息检索技术的研究[D];中国科学院研究生院(计算技术研究所);2001年
10 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
中国硕士学位论文全文数据库 前10条
1 辛明海;个性化信息服务中的本体论自动分类和多Agent技术[D];华侨大学;2002年
2 李雪斌;基于粗糙集理论的规则挖掘方法研究[D];江西师范大学;2002年
3 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
4 石霞军;邮件信息过滤算法研究与实现[D];湖南大学;2002年
5 边后琴;基于支持向量的径向基函数神经网络的训练算法[D];武汉科技大学;2002年
6 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
7 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
8 姚松源;文本自动分类系统的研究与实现[D];北京工业大学;2003年
9 王家锋;分布式智能搜索引擎技术[D];北京工业大学;2003年
10 向旭宇;邮件安全审计和过滤技术研究与实现[D];中国人民解放军国防科学技术大学;2003年
【二级引证文献】
中国期刊全文数据库 前10条
1 魏华,李扬继;基于树的多关键词搜索算法在网络监控系统中的应用[J];成都信息工程学院学报;2005年01期
2 阎亚杰;;网页去重方法研究[J];电脑开发与应用;2008年08期
3 闫超;;基于改进的SVM线性可分文本分类算法[J];电脑开发与应用;2010年08期
4 罗洁;南风露;;基于粗糙集的Web文本挖掘技术[J];电脑知识与技术(学术交流);2007年19期
5 常凯;;基于TF*IDF垃圾邮件过滤改进算法的研究[J];电脑知识与技术;2010年25期
6 罗兴军;白晓波;;基于事件驱动模型的搜索引擎设计[J];电脑知识与技术;2011年28期
7 孙长宾;柴松;;军事信息主题搜索引擎研究[J];福建电脑;2011年03期
8 徐家良;;个性化服务在WAP中的应用[J];福建电脑;2012年02期
9 孔素然;;基于散列思想的网页去重系统[J];硅谷;2010年22期
10 谢科;张辉;陈鹏;庞斌;;文本分类系统关键技术[J];广西师范大学学报(自然科学版);2007年02期
中国重要会议论文全文数据库 前5条
1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
2 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
3 李卫东;杨炳儒;李龙星;曲文龙;;基于中心词位置的VSM文本分类算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
4 ;Chinese Text Emotion Classification Based On Emotion Dictionary[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
5 彭渊;赵铁军;郑德权;于浩;;基于特征句抽取的网页去重研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
2 卜江;以足球视频为媒介的心理战及其信息生成技术研究[D];国防科学技术大学;2011年
3 常明山;面向大规模定制产品规划关键技术的研究[D];天津大学;2003年
4 徐晓燕;企业财务困境的预测方法研究[D];中国科学技术大学;2006年
5 杨金芳;支持向量回归在预测控制中的应用研究[D];华北电力大学(河北);2007年
6 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
7 郝立柱;汉语文本自动分类[D];吉林大学;2008年
8 吴陈;粒和粗集研究及与证据理论相结合在不完备数据处理中的应用[D];南京理工大学;2007年
9 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
10 白亮;本体支持的视频情报分析方法与技术研究[D];国防科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
2 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
3 伍红亮;基于最小风险的贝叶斯邮件过滤算法研究[D];华南理工大学;2010年
4 梁晔平;中文文本自动分类相关算法的研究与实现[D];华南理工大学;2010年
5 高婷;基于粗糙集的属性约简算法研究[D];昆明理工大学;2008年
6 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
7 荣建文;基于RS-SVM的Web中文文本自动分类研究[D];东北财经大学;2010年
8 袁路妍;钨层文本自动分类技术的研究与应用[D];东华大学;2011年
9 张宁;基于语义的中文文本预处理研究[D];西安电子科技大学;2011年
10 胡改蝶;中文文本分类中特征选择方法的应用与研究[D];太原理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前1条
1 吴军,王作英,禹锋,王侠;汉语语料的自动分类[J];中文信息学报;1995年04期
【相似文献】
中国期刊全文数据库 前10条
1 任美睿;郭龙江;李金宝;;基于改进的向量空间模型的自动文本分类[J];哈尔滨商业大学学报(自然科学版);2006年01期
2 方兰,王明文;文本自动分类技术及其应用[J];计算机与现代化;2004年07期
3 杨昂;;K特征线法在文本分类上的应用[J];计算机科学;2002年01期
4 黄萱菁;吴立德;;基于向量空间模型的文档分类系统[J];模式识别与人工智能;1998年02期
5 郭炜强;戴天;文贵华;;基于领域知识的专利自动分类[J];计算机工程;2005年23期
6 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期
7 赵敏涯;沈洁;陈志敏;林颖;;一种新的自动文本分类的算法[J];扬州大学学报(自然科学版);2006年01期
8 张娜;张化祥;;基于超链接和内容相关度的检索算法[J];计算机应用;2006年05期
9 杨丽华;戴齐;郭艳军;;KNN文本分类算法研究[J];微计算机信息;2006年21期
10 田正军;张鸿彦;;基于自动分类的邮件过滤系统[J];河南科学;2007年02期
中国重要会议论文全文数据库 前10条
1 任美睿;李建中;杨艳;;基于朴素贝叶斯方法的自动文本分类系统的实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 吴哲;袁媛;杜小勇;刘怡;;基于简单事件框架和关键字的自动文本分类[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 贺瑞芳;钟绍春;程晓春;;教学资源的个性化搜索引擎研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 王桐;刘大昕;田迪;孙伟;张万松;;一种改进的XML向量空间模型及其近似匹配算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 高勇;荀恩东;宋柔;;构造自然语言问答系统平台[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 邹嘉彦;;评述新闻报道或文章色彩-正负两极性自动分类的研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 喻飞;夏晓燕;吴蓉晖;徐成;;基于向量空间模型的信息安全审计系统[A];第二十六届中国控制会议论文集[C];2007年
8 陈浩;何婷婷;代玲;;基于向量空间模型的无导词义消歧[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 玛依来·哈帕尔;古丽拉·阿东别克;;基于K-最近距离方法的哈萨克语报纸分类初探[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
10 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国重要报纸全文数据库 前2条
1 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
中国博士学位论文全文数据库 前10条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
2 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
3 邢军;领域本体构造中数据源选取及构造方法的研究[D];大连理工大学;2008年
4 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
5 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
6 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
7 徐婕;基于对等网络的资源搜索策略的研究[D];华中科技大学;2007年
8 王修力;基于描述复杂性的信息检索理论与若干模型研究[D];北京语言大学;2006年
9 王菁;P2P系统中资源管理机制的研究[D];中国科学技术大学;2007年
10 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
中国硕士学位论文全文数据库 前10条
1 毛伟;基于统计语言模型的中文自动文本分类系统[D];北京邮电大学;2006年
2 丁宬杰;搜索引擎技术的研究与实现[D];上海交通大学;2007年
3 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
4 张波;个性化Web搜索系统研究[D];燕山大学;2006年
5 郭妍;基于市长公开电话文本为背景的两种自动分类算法的比较[D];东北师范大学;2006年
6 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
7 李洋;企业注册登记文件聚类软件设计与实现[D];大连理工大学;2007年
8 吴新涛;基于向量空间模型的网页信息过滤方法研究[D];大连理工大学;2008年
9 赵博;一种基于关键向量的文本分类模型的研究[D];哈尔滨理工大学;2008年
10 赵文鹏;基于自组织特征映射的海洋文献聚类分析的研究与实现[D];中国海洋大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026