收藏本站
《中文信息学报》 2002年03期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种基于向量空间模型的多层次文本分类方法

刘少辉  董明楷  张海俊  李蓉  史忠植  
【摘要】:本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提取各类模型时只在同层同一结点下的类文档之间进行比较 ;而对文档进行自动分类时 ,首先从根结点开始找到对应的大类 ,然后递归往下直到找到对应的叶子子类。实验和实际系统表明 ,该方法具有较高的正确率和召回率

【引证文献】
中国期刊全文数据库 前10条
1 张毓敏,谢康林;基于SOM算法实现的文本聚类[J];计算机工程;2004年01期
2 丁月华,文贵华,郭炜强;基于核向量空间模型的专利分类[J];华南理工大学学报(自然科学版);2005年08期
3 王梦云,王素格;一个基于字特征的文本分类模型[J];计算机工程与应用;2004年13期
4 李嘉佑,何清,史忠植;机器学习与网络信息处理[J];计算机工程与应用;2004年33期
5 徐凤亚,罗振声;文本自动分类中特征权重算法的改进研究[J];计算机工程与应用;2005年01期
6 丁文斌,李斌,罗浩;基于改进贝叶斯的垃圾邮件过滤系统设计与实现[J];计算机工程与应用;2005年18期
7 高茂庭;王正欧;;基于LSA降维的RPCL文本聚类算法[J];计算机工程与应用;2006年23期
8 高茂庭;王正欧;;几种文本特征降维方法的比较分析[J];计算机工程与应用;2006年30期
9 邵华;高凤荣;邢春晓;蒋丽华;;基于VSM的分层网页推荐算法[J];计算机科学;2006年11期
10 王国勇,徐建锁;TCBLSA:一种中文文本聚类新方法[J];计算机工程;2004年05期
中国博士学位论文全文数据库 前6条
1 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
2 杜文斌;基于神经网络的冠心病证候诊断标准与药效评价模型研究[D];辽宁中医学院;2004年
3 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
4 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
5 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
6 李冠军;电子政务服务理论及其支撑技术的研究[D];天津大学;2006年
中国硕士学位论文全文数据库 前10条
1 杨霞;基于JXTA的P2P文件搜索机制的研究与应用[D];大连理工大学;2008年
2 马文娟;文本特征降维与分类规则抽取方法研究与应用[D];大连理工大学;2007年
3 许琦;个性化信息服务技术研究[D];浙江大学;2007年
4 刘云霞;基于粗糙集的“规则+例外”网页分类研究[D];太原理工大学;2007年
5 詹子鹏;基于文本挖掘的主题分类专家系统的设计和实现[D];安徽大学;2007年
6 毛平;基于领域本体的文本信息语义检索研究[D];南京理工大学;2007年
7 王志玲;基于神经网络的文本自动分类系统研究[D];山东理工大学;2007年
8 代学武;基于神经网络的用户建模和Web信息过滤研究[D];西南师范大学;2003年
9 刘立平;一种中文文本聚类方法的研究[D];湘潭大学;2003年
10 宋礼鹏;大规模语料库分词质量评价方法研究[D];山西大学;2004年
【参考文献】
中国期刊全文数据库 前3条
1 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
2 李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期
3 张月杰,姚天顺;基于特征相关性的汉语文本自动分类模型的研究[J];小型微型计算机系统;1998年08期
【共引文献】
中国期刊全文数据库 前10条
1 司莉,俞君立,贺定安;我国文献分类计算机化的发展与近期目标研究(上)——20年来的成就与存在问题[J];图书情报知识;2000年02期
2 张宪海,吴玲达,谢毓香,老松杨;基于分类的个性化视频故事的自动生成与表现技术研究[J];计算机应用研究;2000年07期
3 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
4 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报(自然科学版);2003年03期
5 吴雅娟,柳培林 ,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期
6 韩惠琴,刘柏嵩,董其军;知识发现在数字图书馆中的应用[J];大学图书馆学报;2001年01期
7 张莉,康耀红,王曙光,张春元;中文网页自动分类现状的研究[J];福建电脑;2004年05期
8 胡佳妮,徐蔚然,郭军,邓伟洪;中文文本分类中的特征选择算法研究[J];光通信研究;2005年03期
9 唐懿芳 ,牛力 ,傅赛香 ,严小卫;文本的自动分类[J];广西师范大学学报(自然科学版);2001年04期
10 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
中国重要会议论文全文数据库 前9条
1 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
2 苏伟峰;李绍滋;李堂秋;尤文建;;可分义原向量空间中的跨语种文本过滤模型[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 陈文亮;朱靖波;姚天顺;张宇新;;基于Bootstrapping的领域词汇自动获取[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 张琼;陈群秀;;基于最大熵模型的语句自动分类研究[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
6 陈浩;何婷婷;代玲;;基于向量空间模型的无导词义消歧[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 任函;何婷婷;;大规模在线文本的自动分类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 卢朋;曾隽芳;杨一平;;基于背景知识的文本自动分类[A];第三届学生计算语言学研讨会论文集[C];2006年
9 丁伟莉;赵华;郑德权;赵铁军;于浩;;中文Blog热门话题检测与排序技术研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
2 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
5 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
6 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
7 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
8 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
9 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年
10 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 李若鹏;互联网舆情信息管控关键技术研究与实现[D];上海交通大学;2008年
2 王志强;WEB文本信息抽取和分类研究[D];辽宁工程技术大学;2006年
3 朱文轩;Blog文本内容敏感信息的自动提取技术[D];上海交通大学;2008年
4 孙登林;基于概念网的不良信息过滤研究与实现[D];上海交通大学;2008年
5 张剑;汉语文本作者识别方法的研究与实现[D];上海交通大学;2007年
6 邬雄崎;物理隔离网闸的过滤技术研究和实现[D];上海交通大学;2007年
7 吴新涛;基于向量空间模型的网页信息过滤方法研究[D];大连理工大学;2008年
8 杨硕;基于VSM文本分类系统的设计与实现[D];大连理工大学;2006年
9 黎刚;文本分类中词语权重计算方法的改进及应用[D];重庆大学;2007年
10 张继军;Web页面文本信息的自动提取技术研究[D];吉林大学;2007年
【同被引文献】
中国期刊全文数据库 前10条
1 肖晨;武东英;郭绍忠;陈新;;一种基于XML的CMS元数据索引算法[J];计算机工程;2007年07期
2 王文俊;杨瑞娟;梁文刚;;P2P网络中一种层次资源搜索模型[J];空军雷达学院学报;2006年01期
3 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报(自然科学版);2000年03期
4 李渝勤,孙丽华;基于规则的自动分类在文本分类中的应用[J];中文信息学报;2004年04期
5 卢娇丽,郑家恒;基于粗糙集的文本分类方法研究[J];中文信息学报;2005年02期
6 常犁云,263.net,王国胤,263.net,吴渝,263.net;一种基于Rough Set理论的属性约简及规则提取方法[J];软件学报;1999年11期
7 薛崧;基于Web数据库平台的图书馆个性化服务:MyLibrary[J];图书情报工作;2002年08期
8 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期
9 肖田元,王爱民,范文慧;基于ASP的网络化制造平台研究[J];高技术通讯;2004年09期
10 胡鑫;;中文文本分类的特征选取研究[J];甘肃科技;2006年05期
中国重要会议论文全文数据库 前4条
1 Fei-Long Chen;Shu-Fan Liu Dept. of Industrial Engineering and Engineering Management, National Tsing Hua Univ., Hsinchu, Taiwan, R.O.C.;数据挖掘技术在低产量硅片诊断中的运用(英文)[A];首届亚洲质量网大会暨第17届亚洲质量研讨会——首届中国质量学术论坛论文集(第二卷)[C];2003年
2 孙丽华;王洪俊;肖诗斌;施水才;;规则分类在文本自动分类中的应用[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
3 关毅;王晓龙;;基于统计的汉语词汇间语义相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 万中英;王明文;廖海波;左家莉;;维数约简在网页分类中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 李庆虎;基于P2P架构的网格文件系统研究[D];清华大学;2004年
2 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
3 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年
4 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
5 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
6 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
7 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
8 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
9 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
10 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前10条
1 左家莉;基于Markov网络的信息检索模型[D];江西师范大学;2005年
2 陈治纲;基于向量空间模型的文本分类系统研究与实现[D];天津大学;2005年
3 秦文燕;基于语义网格的信息检索技术的研究[D];东南大学;2006年
4 姚松源;文本自动分类系统的研究与实现[D];北京工业大学;2003年
5 边后琴;基于支持向量的径向基函数神经网络的训练算法[D];武汉科技大学;2002年
6 王晓庆;基于RBF网络的文本自动分类的研究[D];江西师范大学;2003年
7 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
8 钟敏娟;基于Web的文本信息检索算法研究[D];湖南大学;2004年
9 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
10 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
【二级引证文献】
中国期刊全文数据库 前10条
1 胡燕;吴虎子;钟珞;;中文文本分类中基于词性的特征提取方法研究[J];武汉理工大学学报;2007年04期
2 曾义聪;杨贯中;;基于概念树的主题搜索机器人系统研究[J];科学技术与工程;2006年16期
3 谭金波;;文本层次分类中特征项权重算法的比较研究[J];情报杂志;2007年09期
4 陈明晶;姚建荣;唐志豪;;电子商务系统的商品搜索算法研究[J];计算机工程与应用;2006年03期
5 杨峰,周宁,吴佳鑫;基于信息可视化技术的文本聚类方法研究[J];情报学报;2005年06期
6 朱烨行;戴冠中;李晓宇;慕德俊;;一种文本聚类方法及BBS浏览机制研究[J];微电子学与计算机;2006年08期
7 单晓云,高志芳,赵树果,牛国强;模糊聚类分析优化炼焦配煤的研究[J];煤炭科学技术;2005年06期
8 胡国全,陈家骏,戴新宇,尹存燕;一种基于实例的汉英机器翻译策略[J];计算机工程与设计;2005年04期
9 谢桂芳;李仁发;;具有概念联想功能的语义关系库的自动构建[J];计算机工程与应用;2007年07期
10 包金龙;基于向量空间模型的信息检索系统的设计[J];情报杂志;2005年07期
中国重要会议论文全文数据库 前9条
1 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 万中英;王明文;廖海波;;一种新的投影寻踪计算方法及在文本分类中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 韩冰;林鸿飞;;基于支撑向量机的人物关系抽取[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
4 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 张迪;郑德权;赵铁军;于浩;;Blog网页分类与识别技术研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
6 张志斌;施水才;吕学强;;基于贝叶斯方法的中文垃圾邮件过滤技术综述[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
8 陈伟萍;王琳;封化民;杨鼎才;方勇;;一种基于语义概念的中文文本分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
9 孙丽华;肖诗斌;施水才;;基于向量空间模型的规则分类技术[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前9条
1 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
2 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
3 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
4 赵小兵;基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D];北京语言大学;2007年
5 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
6 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
7 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年
8 毕晓君;基于智能信息技术的纹理图象识别与生成研究[D];哈尔滨工程大学;2006年
9 王佐成;基于纹理的遥感图像分类研究[D];西南交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 牛琳;基于SVM的公安情报自动分类系统的设计与实现[D];解放军信息工程大学;2007年
2 王志强;WEB文本信息抽取和分类研究[D];辽宁工程技术大学;2006年
3 肖伟;基于语义的BLOG社区文本倾向性分析[D];上海交通大学;2007年
4 陆鹏;投影寻踪模型在文本聚类算法中的应用研究[D];上海海事大学;2007年
5 黎刚;文本分类中词语权重计算方法的改进及应用[D];重庆大学;2007年
6 许琦;个性化信息服务技术研究[D];浙江大学;2007年
7 顾亦周;电子把关:大陆中文网络信息交互平台文本过滤现象初探[D];苏州大学;2007年
8 唐建清;数据挖掘在桂林旅游信息中的应用研究[D];华东师范大学;2007年
9 顾亦周;电子把关:大陆中文网络信息交互平台文本过滤现象初探[D];苏州大学;2007年
10 曹海霞;基于贝叶斯的分布式反垃圾邮件系统的研究与实现[D];江西理工大学;2007年
【二级参考文献】
中国期刊全文数据库 前1条
1 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
【相似文献】
中国期刊全文数据库 前10条
1 韦秀先;李正吾;;情报检索向量空间模型的几点补充[J];技术与市场;1993年02期
2 陶跃华,王锡钢,王云爱;信息检索向量空间模型中特征提取的研究[J];云南师范大学学报(自然科学版);2000年06期
3 王文欣,黄萱菁,吴立德;基于统计方法的汉语自动文摘系统研究[J];计算机应用与软件;2000年09期
4 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
5 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
6 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
7 陈治平,林亚平,童调生;基于N层向量空间模型的信息检索算法[J];计算机研究与发展;2002年10期
8 刘少辉,董明楷,张海俊,李蓉,史忠植;一种基于向量空间模型的多层次文本分类方法[J];中文信息学报;2002年03期
9 游荣彦,邓志才,李传宏;向量空间模型中特征词的区分度的定量研究[J];中文信息学报;2002年03期
10 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
中国重要会议论文全文数据库 前10条
1 万敏;罗振声;郭玉箐;;自动文摘系统中的意义段划分问题研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 张刚;刘挺;秦兵;车万翔;李生;;面向信息内容安全的文本过滤系统研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 卜东波;白硕;;文摘自动生成中权重计算的对偶性策略[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
6 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
8 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
9 苏贵洋;王永成;马颖华;;信息自动获取的结构模型[A];第一届学生计算语言学研讨会论文集[C];2002年
10 赵林;夏迎炬;黄萱菁;吴立德;;基于Winnow算法的文本过滤[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前2条
1 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
中国博士学位论文全文数据库 前10条
1 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
2 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年
3 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
4 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
5 王修力;基于描述复杂性的信息检索理论与若干模型研究[D];北京语言大学;2006年
6 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年
7 杨志峰;稳定的信息检索方法及其在分布式环境下的应用[D];中国科学院研究生院(计算技术研究所);2003年
8 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
9 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
10 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
中国硕士学位论文全文数据库 前10条
1 任美睿;数字图书馆中词频提取和自动文本分类方法的研究[D];黑龙江大学;2002年
2 董建设;基于HTML标记分析及中文切词的网页索引研究与实现[D];兰州理工大学;2003年
3 郭永明;XML文档检索技术研究[D];太原理工大学;2003年
4 李正林;中文文本数据分类研究[D];上海师范大学;2004年
5 骆昌日;基于统计方法的中文文本自动分类研究[D];华中师范大学;2004年
6 陈晋川;基于CoP建模的信息过滤技术研究[D];中国科学院研究生院(软件研究所);2004年
7 方兰;基于局域网的信息推送系统[D];江西师范大学;2004年
8 张隽;模糊同义词典在VSM文本信息检索方法中的应用[D];大连理工大学;2004年
9 吴娟;军用信息自动分类的研究与实现[D];南京理工大学;2004年
10 蒋伟贞;基于类别的特征选择算法的文本分类系统[D];西南交通大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026