收藏本站
《中文信息学报》 2002年03期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种基于向量空间模型的多层次文本分类方法

刘少辉  董明楷  张海俊  李蓉  史忠植  
【摘要】:本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提取各类模型时只在同层同一结点下的类文档之间进行比较 ;而对文档进行自动分类时 ,首先从根结点开始找到对应的大类 ,然后递归往下直到找到对应的叶子子类。实验和实际系统表明 ,该方法具有较高的正确率和召回率

知网文化
【引证文献】
中国期刊全文数据库 前10条
1 吴光远,何丕廉,曹桂宏,聂颂;基于向量空间模型的词共现研究及其在文本分类中的应用[J];计算机应用;2003年S1期
2 陈治纲,何丕廉,孙越恒,郑小慎;基于向量空间模型的文本分类方法的研究与实现[J];计算机应用;2004年S1期
3 罗欣,夏德麟,晏蒲柳;基于词频差异的特征选取及改进的TF-IDF公式[J];计算机应用;2005年09期
4 宋礼鹏,郑家恒;基于聚类的语料库分词评价方法研究[J];计算机学报;2004年02期
5 张毓敏,谢康林;基于SOM算法实现的文本聚类[J];计算机工程;2004年01期
6 王国勇,徐建锁;TCBLSA:一种中文文本聚类新方法[J];计算机工程;2004年05期
7 郭炜强;戴天;文贵华;;基于领域知识的专利自动分类[J];计算机工程;2005年23期
8 赵亚琴;周献中;;一种基于小生境遗传算法的中文文本聚类新方法[J];计算机工程;2006年06期
9 邵华;高凤荣;邢春晓;蒋丽华;;基于VSM的分层网页推荐算法[J];计算机科学;2006年11期
10 高茂庭;王正欧;;几种文本特征降维方法的比较分析[J];计算机工程与应用;2006年30期
中国博士学位论文全文数据库 前8条
1 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
2 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
3 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
4 杜文斌;基于神经网络的冠心病证候诊断标准与药效评价模型研究[D];辽宁中医学院;2004年
5 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
6 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
7 李冠军;电子政务服务理论及其支撑技术的研究[D];天津大学;2006年
8 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
中国硕士学位论文全文数据库 前10条
1 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
2 迟学芝;基于自学习机制的信息过滤模型研究与实践[D];山东师范大学;2005年
3 曾义聪;基于概念树的主题爬取技术研究[D];湖南大学;2005年
4 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
5 柳培林;基于向量空间模型的中文文本分类技术研究[D];大庆石油学院;2006年
6 古华贞;基于本体的移动问答系统研究[D];大连理工大学;2006年
7 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年
8 任函;大规模中文网页的自动分类研究[D];华中师范大学;2006年
9 凌菁;基于数据挖掘的中文垃圾邮件过滤方法研究与实现[D];广东工业大学;2005年
10 郑伟;基于类别均衡的文本分类算法研究[D];西安电子科技大学;2006年
【参考文献】
中国期刊全文数据库 前3条
1 李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期
2 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
3 张月杰,姚天顺;基于特征相关性的汉语文本自动分类模型的研究[J];小型微型计算机系统;1998年08期
【共引文献】
中国期刊全文数据库 前10条
1 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
2 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报(自然科学版);2003年03期
3 韩惠琴,刘柏嵩,董其军;知识发现在数字图书馆中的应用[J];大学图书馆学报;2001年01期
4 张莉,康耀红,王曙光,张春元;中文网页自动分类现状的研究[J];福建电脑;2004年05期
5 胡佳妮,徐蔚然,郭军,邓伟洪;中文文本分类中的特征选择算法研究[J];光通信研究;2005年03期
6 唐懿芳 ,牛力 ,傅赛香 ,严小卫;文本的自动分类[J];广西师范大学学报(自然科学版);2001年04期
7 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
8 许增福,梁静国,田晓宇;基于FVSM和自组织映射网络的Web文本自动分类方法[J];哈尔滨工业大学学报;2004年09期
9 陈丽,于浩,郑德权,赵铁军;基于文本内容的超链接分类研究[J];哈尔滨商业大学学报(自然科学版);2004年02期
10 任美睿;郭龙江;李金宝;;基于改进的向量空间模型的自动文本分类[J];哈尔滨商业大学学报(自然科学版);2006年01期
中国重要会议论文全文数据库 前1条
1 张琼;陈群秀;;基于最大熵模型的语句自动分类研究[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
中国博士学位论文全文数据库 前10条
1 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
2 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
3 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
4 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
5 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
6 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
7 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
8 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
9 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
10 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 杨盛;电子邮件过滤系统的研究与设计[D];中南大学;2005年
2 靳小波;基于机器学习算法的文本分类系统[D];西北工业大学;2005年
3 陈妍;面向个性化学习的网上自助教学系统的本体研究[D];东华大学;2005年
4 李朝阳;经济文献数据库计算机标引研究[D];南京农业大学;2000年
5 刘向辉;专题性智能搜索引擎的研究与实现[D];昆明理工大学;2001年
6 吕文志;基于分类和关联规则的数据挖掘研究及应用[D];大连理工大学;2001年
7 冯元勇;智能搜索器的概念库设计及其文档评价策略[D];中南大学;2002年
8 马丽娜;基于Web的数据挖掘技术研究[D];山东师范大学;2002年
9 王崑崙;中文网页自动分类的一种实现[D];大连理工大学;2002年
10 曹渝昆;基于RDF的个性化服务模型[D];重庆大学;2002年
【同被引文献】
中国期刊全文数据库 前10条
1 雷景生;基于多层向量空间模型的Web信息检索方法[J];计算机应用;2004年04期
2 刘琦,林怀忠,陈纯;模糊聚类的最大树算法在Web页面分类中的应用[J];计算机应用研究;2004年11期
3 牛强;王志晓;陈岱;夏士雄;;基于SVM的中文网页分类方法的研究[J];计算机工程与设计;2007年08期
4 张俐,李晶皎,胡明涵,姚天顺;中文WordNet的研究及实现[J];东北大学学报(自然科学版);2003年04期
5 侯汉清,薛鹏军;基于知识库的网页自动标引和自动分类系统的设计[J];大学图书馆学报;2004年01期
6 赵新力,刘春燕,盛苏平;主题词表在电子政务中的作用及其编制规则[J];信息技术与标准化;2004年10期
7 倪静,赵新力,李惠安;电子政务主题词表应用系统中主题标引算法研究[J];高技术通讯;2003年10期
8 王熙照,王丽娟,袁方,湛燕;Web用户访问模式挖掘[J];河北大学学报(自然科学版);2002年04期
9 何盈捷,刘惟一;由Markov网到Bayesian网[J];计算机研究与发展;2002年01期
10 苏菲,王丹力,戴国忠;基于标记的规则统计模型与未登录词识别算法[J];计算机工程与应用;2004年15期
中国重要会议论文全文数据库 前1条
1 孙丽华;王洪俊;肖诗斌;施水才;;规则分类在文本自动分类中的应用[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
中国博士学位论文全文数据库 前10条
1 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
2 万朋;合成孔径雷达目标检测及相关技术研究[D];电子科技大学;2000年
3 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
4 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
5 骆祥峰;认知图理论及其在图像分析与理解中的应用[D];合肥工业大学;2003年
6 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
7 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
8 王晓东;基于Ontology知识库系统建模与应用研究[D];华东师范大学;2003年
9 刘君强;海量数据挖掘技术研究[D];浙江大学;2003年
10 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
中国硕士学位论文全文数据库 前10条
1 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年
2 陆勇;面向信息检索的汉语同义词自动识别[D];南京农业大学;2005年
3 朱南丽;基于DOM的网页主体信息块抽取[D];昆明理工大学;2006年
4 苏力华;基于向量空间模型的文本分类技术研究[D];西安电子科技大学;2006年
5 台德艺;基于特征权重算法的文本分类研究[D];合肥工业大学;2007年
6 唐剑波;Web文本挖掘中的文本分类研究[D];湖南大学;2007年
7 时达明;Blog热点话题发现及其作者声誉度研究[D];大连理工大学;2007年
8 陈平;基于SVM的中文文本分类相关算法的研究与实现[D];西北大学;2008年
9 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
10 王胜海;网络智能知识服务系统设计与实现[D];中国科学院研究生院(文献情报中心);2002年
【二级引证文献】
中国期刊全文数据库 前10条
1 吕德新;张桂平;蔡东风;朱江涛;;基于SVM的疑问句问点语义角色标注[J];沈阳航空工业学院学报;2006年01期
2 陈明晶;姚建荣;唐志豪;;电子商务系统的商品搜索算法研究[J];计算机工程与应用;2006年03期
3 谢桂芳;李仁发;;具有概念联想功能的语义关系库的自动构建[J];计算机工程与应用;2007年07期
4 李艳玲;戴冠中;朱烨行;;基于类别空间模型的文本倾向性分类方法[J];计算机应用;2007年09期
5 饶文碧;柯慧燕;张丽;;一种扩展的基于VSM的Web文本分类算法[J];计算机应用与软件;2006年10期
6 廖莎莎;江铭虎;;中文文本分类中基于概念屏蔽层的特征提取方法[J];中文信息学报;2006年03期
7 单晓云,高志芳,赵树果,牛国强;模糊聚类分析优化炼焦配煤的研究[J];煤炭科学技术;2005年06期
8 王明文,付雪峰,左家莉;网页与文本自动分类综述[J];南昌工程学院学报;2005年03期
9 周瑛;刘政怡;;覆盖算法在文本分类中的应用[J];情报理论与实践;2006年01期
10 包金龙;基于向量空间模型的信息检索系统的设计[J];情报杂志;2005年07期
中国重要会议论文全文数据库 前1条
1 韩冰;林鸿飞;;基于支撑向量机的人物关系抽取[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
2 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
3 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
4 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
5 毕晓君;基于智能信息技术的纹理图象识别与生成研究[D];哈尔滨工程大学;2006年
6 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
7 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
8 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
9 杨燕;基于计算智能的聚类组合算法研究[D];西南交通大学;2006年
10 王佐成;基于纹理的遥感图像分类研究[D];西南交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 孙辉;中文人名搜索引擎的设计与实现[D];兰州大学;2006年
2 王钦;基于数据挖掘的智能答疑系统的研究与设计[D];济南大学;2007年
3 刘秀芳;数据挖掘算法在智能答疑系统中的应用研究[D];山东师范大学;2007年
4 张海笑;数据挖掘分类技术在高校教学中的应用研究[D];广东工业大学;2005年
5 潘春华;中文农林信息资源主动推送服务研究[D];北京林业大学;2005年
6 杨振;基于Rough Set理论的文本分类器研究[D];辽宁科技大学;2006年
7 王宇辉;基于因素空间的学科分类研究[D];西南交通大学;2007年
8 范长英;基于内容的网络安全信息审计技术研究[D];山东师范大学;2007年
9 李家兵;交叉覆盖算法下文本分类的研究[D];安徽大学;2007年
10 魏建;基于语义中心的KNN文本分类算法研究[D];南京理工大学;2007年
【二级参考文献】
中国期刊全文数据库 前1条
1 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
【相似文献】
中国期刊全文数据库 前10条
1 孟佳娜;林鸿飞;李彦鹏;;基于特征贡献度的特征选择方法在文本分类中应用[J];大连理工大学学报;2011年04期
2 胡泽文;王效岳;白如江;;国内外文本分类研究计量分析与综述[J];图书情报工作;2011年06期
3 蔡华利;刘鲁;王理;;突发事件Web新闻多层次自动分类方法[J];北京工业大学学报;2011年06期
4 唐云;罗俊松;;基于粗糙集和BP神经网络的文本分类研究[J];计算机仿真;2011年06期
5 李旻松;段琢华;;基于支持向量机的隐含语意特征选择方法[J];计算机应用;2011年09期
6 卢志翔;蒙丽莉;;文本分类中特征项权重算法的改进[J];柳州师专学报;2011年04期
7 甄志龙;曾晓勤;韩立新;;文本分类中基于图模型的特征提取方法[J];情报科学;2011年08期
8 刘海峰;庞秀梅;张学仁;;一种聚类模式下基于密度的改进KNN算法[J];微电子学与计算机;2011年07期
9 曾安平;;一种增量式的半监督文本分类算法[J];宜宾学院学报;2011年06期
10 吴谋硕;;基于遗传算法的文本分类技术[J];电脑知识与技术;2011年22期
中国重要会议论文全文数据库 前10条
1 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
2 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 王秀娟;郑康锋;杨星海;;线性鉴别分析在中文文本分类中的应用[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年
9 陈毅恒;秦兵;刘挺;林建国;李生;;基于错误预测的文本分类方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 朱琳;周水庚;;基于聚类的文本分类属性加权[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国重要报纸全文数据库 前3条
1 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
2 希安;微软试水信息检索[N];经济日报;2004年
3 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
2 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
3 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
4 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
5 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
6 郝立柱;汉语文本自动分类[D];吉林大学;2008年
7 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
8 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
9 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
10 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
中国硕士学位论文全文数据库 前10条
1 郭妍;基于市长公开电话文本为背景的两种自动分类算法的比较[D];东北师范大学;2006年
2 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
3 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
4 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
5 赵博;一种基于关键向量的文本分类模型的研究[D];哈尔滨理工大学;2008年
6 甘立国;中文文本分类系统的研究与实现[D];北京化工大学;2006年
7 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
8 马宏伟;基于SVM的中文文本分类系统的建模与实现[D];大连理工大学;2006年
9 沈贺丹;核心能力评价系统的分类模块研究[D];辽宁工程技术大学;2006年
10 陈治纲;基于向量空间模型的文本分类系统研究与实现[D];天津大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026