收藏本站
《东北大学学报》 2003年03期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

应用特征聚合进行中文文本分类的改进KNN算法

张晓辉  李莹  王华勇  赵宏  
【摘要】:针对以KNN为代表的VSM模型存在的向量各特征项孤立处理问题 ,提出了一种应用特征聚合方式的改进算法·该算法通过CHI概率统计计算文本特征词对分类的贡献 ,将对分类有相同贡献的文本特征词聚合 ,使用它们共同的分类贡献模式代替传统算法中单个词对应向量一维的方式·该算法提高了稀有词对分类的贡献、强化了关联词的分类效果、并降低了文本向量的维数·与传统KNN算法进行的对比实验证明 ,该算法明显提高了分类的准确率和召回率

【引证文献】
中国期刊全文数据库 前10条
1 李燕琴;一种生态旅游者的识别与细分方法——以北京市百花山自然保护区为例[J];北京大学学报(自然科学版);2005年06期
2 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
3 赵俊杰;盛剑锋;陶新民;;一种基于特征加权的KNN文本分类算法[J];电脑学习;2010年02期
4 张莉,康耀红,王曙光,张春元;中文网页自动分类现状的研究[J];福建电脑;2004年05期
5 何峰,林亚丽;改进的KNN文本分类算法综述[J];福建电脑;2005年01期
6 蒋宗礼;徐学可;李帅;;文本分类中基于词条聚合的特征抽取[J];哈尔滨工程大学学报;2008年11期
7 玛依来·哈帕尔;古丽拉·阿东别克;;哈萨克语文本分类系统的设计与实现[J];计算机工程;2011年05期
8 孟海东;刘小荣;;基于聚类分析的图模型文档分类[J];计算机应用与软件;2012年01期
9 周剑;王晓军;杨明珠;;中文文本的特征抽取和分类算法[J];科技信息(科学教研);2007年28期
10 钱晓东,王正欧;基于改进KNN的文本分类方法[J];情报科学;2005年04期
中国重要会议论文全文数据库 前2条
1 玛依来·哈帕尔;古丽拉·阿东别克;;基于K-最近距离方法的哈萨克语报纸分类初探[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
2 玛依来·哈帕尔;古丽拉·阿东别克;;基于K-最近距离方法的哈萨克语文本分类系统的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
中国博士学位论文全文数据库 前1条
1 王煜;基于决策树和K最近邻算法的文本分类研究[D];天津大学;2006年
中国硕士学位论文全文数据库 前10条
1 刘智勇;基于云计算的文本挖掘算法研究[D];电子科技大学;2011年
2 张炼;基于图模型的Web文档分类方法研究[D];内蒙古科技大学;2010年
3 刘亚南;KNN文本分类中基于遗传算法的特征提取技术研究[D];中国石油大学;2011年
4 邹永强;新闻网页中人物实体关系提取技术研究[D];国防科学技术大学;2011年
5 吴娟;军用信息自动分类的研究与实现[D];南京理工大学;2004年
6 贝雨馨;基于意义信息增益的文本特征项权重计算方法[D];延边大学;2004年
7 周新栋;中文文本分类的文档索引机制及分类模型的研究[D];国防科学技术大学;2004年
8 孙国欣;基于主动学习的中文文本分类[D];兰州大学;2006年
9 李杏姣;农业科技咨询专家库智能管理系统的研究[D];暨南大学;2007年
10 王香港;中文文本自动分类算法研究[D];上海交通大学;2008年
【参考文献】
中国期刊全文数据库 前3条
1 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
2 刁倩,张惠惠,王永成,何骥;中文文献自动分类中的知识库构造及其仿人算法[J];情报学报;2000年03期
3 孙丽华,张积东,李静梅;一种改进的kNN方法及其在文本分类中的应用[J];应用科技;2002年02期
【共引文献】
中国期刊全文数据库 前10条
1 王金凤;一种基于特征聚合理论和LSI的文本分类新方法[J];北京理工大学学报(社会科学版);2004年05期
2 吕佳;;基于改进分类模型的文本分类系统实现[J];重庆师范大学学报(自然科学版);2009年02期
3 杨柳;张俊芝;;浅谈聚类算法及其存在的问题[J];产业与科技论坛;2012年02期
4 樊兴华;王鹏;;基于两步策略的中文短文本分类研究[J];大连海事大学学报;2008年03期
5 陈世立;高野军;;基于神经网络与贝叶斯的混合文本分类研究[J];电脑开发与应用;2006年12期
6 宁慧;吕志龙;;中文文本分类中特征选择方法的研究[J];电脑知识与技术(学术交流);2007年21期
7 张东娜;刘博;;一个基于加权和组合降维的web文本分类系统[J];电脑知识与技术;2008年07期
8 吴煜煌;李禹生;;基于Web的本体学习模型的设计与实现[J];电脑知识与技术;2008年23期
9 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期
10 王杰群;马磊;;一种改进的遗传算法在情感特征选择中的应用[J];电脑知识与技术;2009年23期
中国重要会议论文全文数据库 前5条
1 罗海飞;虞立群;章志凌;邵晓敏;陈林;汪更生;陈弈秋;何伟杰;;一种改进型CHI的特征抽取方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
2 朱宏博;张芊;赵海;宋纯贺;;基于贝叶斯网络英文电影对白的潜在语义分析[A];第八届沈阳科学学术年会论文集[C];2011年
3 陈文亮;朱靖波;姚天顺;张宇新;;基于Bootstrapping的领域词汇自动获取[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 卢朋;曾隽芳;杨一平;;基于背景知识的文本自动分类[A];第三届学生计算语言学研讨会论文集[C];2006年
5 沈志斌;白清源;;基于加权修正的KNN文本分类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
中国博士学位论文全文数据库 前10条
1 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
2 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
3 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
4 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
5 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年
6 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年
7 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
8 何清;机器学习与文本挖掘若干算法研究[D];中国科学院研究生院(计算技术研究所);2002年
9 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年
10 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年
中国硕士学位论文全文数据库 前10条
1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
2 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
3 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
4 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
5 王雅菲;文本分类中特征降维方法的研究[D];长春工业大学;2010年
6 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
7 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
8 荣建文;基于RS-SVM的Web中文文本自动分类研究[D];东北财经大学;2010年
9 贾俊凯;公安业务文本信息挖掘的研究与实现[D];东华大学;2011年
10 张宁;基于语义的中文文本预处理研究[D];西安电子科技大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 陈键;;浅析常用聚类分析算法[J];安徽电子信息职业技术学院学报;2007年01期
2 杨秋杰;;云计算的核心技术——粒度计算[J];信息安全与技术;2010年08期
3 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
4 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
5 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
6 李明;刘鲁;王君;黄兆东;;基于模糊文本分类的多知识领域专家推荐方法[J];北京航空航天大学学报;2009年10期
7 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
8 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
9 何益斌,高景昌,杨亚红,赵君,李小琳;Microsoft SQL Server的索引结构及其优化[J];长春邮电学院学报;2001年Z1期
10 范晓,申铉京;基于IE浏览器的色情图片过滤器[J];吉林大学学报(信息科学版);2004年06期
中国重要会议论文全文数据库 前3条
1 徐芬;王挺;陈火旺;;基于SVM方法的中文实体关系抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 黄旭;朱艳琴;罗喜召;;重复串特征提取算法在不良信息检测中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 熊德兰;鄢靖丰;陈静;;基于论坛主题的网页褒贬倾向性识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 王晓晔;时间序列数据挖掘中相似性和趋势预测的研究[D];天津大学;2003年
2 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
3 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
4 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
5 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
6 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
7 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年
8 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
9 郭艳红;推荐系统的协同过滤算法与应用研究[D];大连理工大学;2008年
10 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年
中国硕士学位论文全文数据库 前10条
1 范小丽;文本分类中特征选择的研究与实现[D];西北大学;2011年
2 崔争艳;中文短文本分类的相关技术研究[D];河南大学;2011年
3 邓彩凤;中文文本分类中互信息特征选择方法研究[D];西南大学;2011年
4 任广明;盗号木马攻击与防范技术的研究实施[D];山东大学;2011年
5 王法波;文本分类的特征选择和分类方法研究[D];山东大学;2011年
6 刘玲玲;文本分类中的特征选择研究[D];中国石油大学;2011年
7 刘亚南;KNN文本分类中基于遗传算法的特征提取技术研究[D];中国石油大学;2011年
8 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
9 杨昂;文本分类算法研究[D];湖南大学;2002年
10 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
【二级引证文献】
中国期刊全文数据库 前10条
1 李强;;浅谈当前货船对“黑匣子”的选用及发展现状[J];才智;2010年28期
2 李燕琴;;一个新的生态旅游者分类指标的有效性分析——以北京市百花山自然保护区为例[J];地理科学;2006年06期
3 江祥奎,原思聪;中文网页分类中的网页特征提取方法[J];电脑开发与应用;2005年10期
4 朱坤红;邓蓉;;基于知识树的文本自动分类方法探索[J];电脑知识与技术;2010年22期
5 鲁小波;陈晓颖;;中国自然保护区生态旅游研究进展[J];国土资源科技管理;2011年03期
6 尚虎平;;地方政府绩效评估指标设计的研究进展与数据挖掘理论的应用[J];甘肃行政学院学报;2012年02期
7 赵元正;王锁萍;;船载航行数据记录仪电源监控模块的设计[J];国外电子测量技术;2006年09期
8 金自翔;戴新宇;陈家骏;;一种基于贪婪算法的KNN参数选择策略[J];广西师范大学学报(自然科学版);2008年01期
9 方琴;李永前;;K近邻短期交通流预测[J];重庆交通大学学报(自然科学版);2012年04期
10 郭秀华;李磊;;基于STC89S52的自助无线导游系统设计[J];工业控制计算机;2012年08期
中国重要会议论文全文数据库 前2条
1 王胜正;关克平;;基于VDR与虚拟现实技术的海事分析系统的研究[A];中国航海学会通信导航专业委员会2005年学术年会论文集[C];2005年
2 苏小康;何婷婷;涂新辉;何金卓;;一种基于维基百科知识库的中文文本分类方法研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前9条
1 刘营;雷达图像编码器的并行处理研究与实现[D];哈尔滨工程大学;2009年
2 薛洋;基于单个加速度传感器的人体运动模式识别[D];华南理工大学;2011年
3 谢宏威;印刷电路板焊点智能检测算法的研究[D];华南理工大学;2011年
4 王煜;基于决策树和K最近邻算法的文本分类研究[D];天津大学;2006年
5 任东;基于支持向量机的植物病害识别研究[D];吉林大学;2007年
6 谭武征;基于知识的概念创新设计系统关键技术的研究[D];上海交通大学;2008年
7 鲁小波;自然保护区生态旅游开发与管理研究[D];辽宁师范大学;2008年
8 周亦鹏;基于软件人的情境主题分析及应用研究[D];北京科技大学;2012年
9 赵明玺;基于波形特征提取与支持向量机分类的颅内压增高预测研究[D];重庆大学;2012年
中国硕士学位论文全文数据库 前10条
1 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
2 刘燕燕;基于数据挖掘技术的管道腐蚀检测系统的研究与开发[D];沈阳理工大学;2010年
3 李保秀;中文文本分类技术研究[D];南昌大学;2010年
4 邓忠莹;中文文本倾向性分类系统研究[D];昆明理工大学;2009年
5 李银树;高校学籍管理虚拟平台研究[D];安徽大学;2010年
6 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
7 袁路妍;钨层文本自动分类技术的研究与应用[D];东华大学;2011年
8 陈文;基于数据仓库的决策树算法研究与应用[D];西安电子科技大学;2010年
9 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
10 卢育红;半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)[D];北京交通大学;2011年
【二级参考文献】
中国期刊全文数据库 前6条
1 王实;高文;;增强型朴素贝叶斯学习[J];计算机科学;2000年04期
2 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
3 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
4 何新贵,彭甫阳;中文文本的关键词自动抽取和模糊分类[J];中文信息学报;1999年01期
5 李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期
6 薛翠芳,郭炳炎;汉语文本特征词的抽取方法[J];情报学报;2000年03期
【相似文献】
中国期刊全文数据库 前10条
1 张宁,贾自艳,史忠植;使用KNN算法的文本分类[J];计算机工程;2005年08期
2 何峰,林亚丽;改进的KNN文本分类算法综述[J];福建电脑;2005年01期
3 谭冠群;丁华福;;支持向量机方法在文本分类中的改进[J];信息技术;2008年01期
4 王小青;;基于并行遗传算法的KNN分类方法[J];西南师范大学学报(自然科学版);2010年02期
5 卢鋆;吴忠望;王宇;卢昱;;基于kNN算法的异常行为检测方法研究[J];计算机工程;2007年07期
6 王金凤;一种基于特征聚合理论和LSI的文本分类新方法[J];北京理工大学学报(社会科学版);2004年05期
7 谭冠群;丁华福;;改进的K最近特征线算法在文本分类中的应用[J];哈尔滨理工大学学报;2008年06期
8 张桂玲;孙济洲;;基于系统调用顺序和频度特性的入侵检测模型[J];计算机工程;2006年13期
9 原媛;孙敏;;基于CLARA的KNN文本分类过滤防火墙的设计实现[J];电脑开发与应用;2007年10期
10 王恒;;WEB日志中基于KNN算法的注入式攻击行为检测方法研究[J];宁夏大学学报(自然科学版);2009年03期
中国重要会议论文全文数据库 前2条
1 宋丹;吴晨;薛德军;师庆辉;;基于KNN的科技主题跟踪[A];第五届全国信息检索学术会议论文集[C];2009年
2 曹三省;刘剑波;陈莉娟;雷秀华;;面向新媒体环境的媒体内容聚合架构研究[A];中国电影电视技术学会影视技术文集[C];2007年
中国博士学位论文全文数据库 前2条
1 王煜;基于决策树和K最近邻算法的文本分类研究[D];天津大学;2006年
2 王新颖;基于网格的短时交通状态预测研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 李杏姣;农业科技咨询专家库智能管理系统的研究[D];暨南大学;2007年
2 袁彦芹;基于支持向量机的大规模文本分类研究与设计[D];山东师范大学;2007年
3 冯静;基于向量空间模型的中文网页自动分类技术研究[D];中国石油大学;2008年
4 柴春梅;互联网短文本信息分类关键技术研究[D];上海交通大学;2009年
5 贾美娟;基于互联网的不良信息过滤技术的设计与实现[D];哈尔滨工程大学;2006年
6 王凯;基于案例推理的应急管理案例库构建方法研究[D];上海交通大学;2009年
7 唐歆瑜;基于知网构建化工领域文本分类模型研究[D];湖南大学;2007年
8 李保洋;特征选择在中医数据挖掘中的应用研究[D];北京交通大学;2008年
9 旭日;基于JADE平台的网络信息搜索与集成系统[D];天津大学;2006年
10 吴春颖;中文Web文本分类新技术的研究和应用[D];江南大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026