收藏本站
《计算机工程》 2008年18期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于向量空间模型的文本聚类算法

姚清耘  刘功申  李翔  
【摘要】:文本聚类是聚类的一个重要研究分支,是聚类方法在文本处理领域的应用。该文探讨了基于向量空间模型的文本聚类方法,提出了一种文本聚类的改进算法——LP算法。同时,基于语料库的实际聚类效果,就维度确定、特征选择等方面提出优化方案。实验证明,LP算法有效地减少了聚类所消耗的时间,实用性和灵活性都较高。

【引证文献】
中国期刊全文数据库 前10条
1 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
2 王利峰;;动态索引树文本聚类方法中节点阀值的优化[J];电脑开发与应用;2010年09期
3 许伟佳;;基于向量空间模型的文档聚类研究[J];电脑知识与技术;2009年25期
4 吴景岚;;一种基于GRASP的文档聚类算法[J];闽江学院学报;2009年05期
5 赵晖;林成龙;唐朝京;;基于视频三音子的双模态语料自动选取算法[J];计算机工程;2009年17期
6 吕楠;罗军勇;刘尧;杨慧洁;;基于话题三层结构模型的话题演化分析算法[J];计算机工程;2009年23期
7 马世霞;刘丹;贾世杰;;基于蚁群算法的文本聚类算法[J];计算机工程;2010年08期
8 葛斌;封孝生;汤大权;;基于模板的无导词义消歧方法[J];计算机工程与科学;2009年12期
9 朱连江;马炳先;赵学泉;;基于轮廓系数的聚类有效性分析[J];计算机应用;2010年S2期
10 李中原;杨守文;;基于向量空间模型的网页特征权重计算改进[J];计算机与现代化;2010年06期
中国博士学位论文全文数据库 前1条
1 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
2 俞文明;Web中文文本聚类研究[D];杭州电子科技大学;2009年
3 徐东亮;基于聚类分析的网络论坛舆情信息挖掘技术研究[D];哈尔滨工业大学;2010年
4 任晓娱;利用分区和距离实现Chord中高维数据范围检索[D];大连理工大学;2009年
5 赵文鹏;基于自组织特征映射的海洋文献聚类分析的研究与实现[D];中国海洋大学;2009年
6 曾建雄;Web信息资源评价及分类的研究[D];中南大学;2009年
7 张振强;P2P环境下高维数据超矩形范围检索研究[D];大连理工大学;2009年
8 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
9 黄仲清;互联网主题信息定向采集研究[D];华东师范大学;2010年
10 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 陶春明;黄照翠;;Web3.0及其对数字化学习资源的应用展望[J];安徽师范大学学报(自然科学版);2008年03期
2 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
3 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
4 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
5 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
6 许云,樊孝忠,张锋;一种不需分词的中文文本分类方法[J];北京理工大学学报;2005年09期
7 侯祥松;曹元大;;一种支持结构化P2P的多维范围查找方法[J];北京理工大学学报;2007年06期
8 牛琨;张舒博;陈俊亮;;融合网格密度的聚类中心初始化方案[J];北京邮电大学学报;2007年02期
9 陈洁;司莉;;社会分类法(Folksonomy)特点及其应用研究[J];图书与情报;2008年03期
10 王娟;;网络舆情监控分析系统构建[J];长春理工大学学报(高教版);2007年04期
中国重要会议论文全文数据库 前2条
1 白硕;程学旗;郭莉;王斌;余智华;刘群;;大规模内容计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 赵纪元;罗霄;;面向中图法的学术文献自动分类研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
2 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
3 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
4 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年
5 谷建军;基于叙词表的中医古籍文献领域本体建模方法研究[D];中国中医科学院;2006年
6 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
7 程勇;基于本体的不确定性知识管理研究[D];中国科学院研究生院(计算技术研究所);2005年
8 谭建龙;串匹配算法及其在网络内容分析中的应用[D];中国科学院研究生院(计算技术研究所);2003年
9 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
10 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
中国硕士学位论文全文数据库 前10条
1 俞文明;Web中文文本聚类研究[D];杭州电子科技大学;2009年
2 丛艳;自动文本摘要方法的研究及应用[D];华北电力大学(北京);2004年
3 李志军;分布式结构与组件技术的应用研究[D];南京理工大学;2004年
4 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
5 甘立国;中文文本分类系统的研究与实现[D];北京化工大学;2006年
6 贾玉祥;基于概率模型的名人网页相关度评价研究[D];郑州大学;2006年
7 柳亚琴;基于OWL的语义Web知识表示研究及其应用[D];太原理工大学;2006年
8 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
9 庞剑锋;基于向量空间模型的自反馈的文本分类系统的研究与实现[D];中国科学院研究生院(计算技术研究所);2001年
10 钟配蓉;基于Web挖掘的文本预处理研究及应用[D];湖南大学;2006年
【二级引证文献】
中国期刊全文数据库 前10条
1 孟宪福;孟泓汐;张振强;;基于区位码和距离的Chord网络高维数据范围检索[J];大连理工大学学报;2011年03期
2 陶惠;张妍;郝光权;;基于向量空间的文档聚类算法分析[J];电脑知识与技术;2011年20期
3 孟宪福;孟泓汐;张振强;;基于区位码和距离的Chord网络高维数据范围检索[J];大连理工大学学报;2011年05期
4 左敬龙;余桂兰;;具有量子特性的ACA-SVM网页分类方法[J];计算机工程与应用;2011年12期
5 梁亚玲;杜明辉;;基于Lab色度空间a分量的唇部提取方法[J];计算机工程;2011年03期
6 沈亚敏;赵晖;张权;唐朝京;;面向语音转换的汉语语料自动选取算法[J];计算机工程;2011年05期
7 余永红;柏文阳;;基于特征项权重自动分解的文本聚类[J];计算机工程;2011年11期
8 袁可红;李艳晓;郭海湘;诸克军;;一种用于储层含油性识别的蚁群聚类算法[J];计算机工程;2011年13期
9 赵贵喜;刘永波;谭世江;刘亮;;基于改进LF算法的雷达信号分选[J];航天电子对抗;2011年04期
10 李连;朱爱红;苏涛;;一种改进的基于向量空间文本相似度算法的研究与实现[J];计算机应用与软件;2012年02期
中国博士学位论文全文数据库 前3条
1 于秀娟;加工过程的质量异常预测与诊断方法研究[D];吉林大学;2011年
2 梁亚玲;基于单视觉通道唇读系统的研究[D];华南理工大学;2011年
3 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
中国硕士学位论文全文数据库 前10条
1 张晓艳;面向农业信息服务平台的挖掘技术研究[D];湖南工业大学;2010年
2 万方;基于本体的陶瓷产品WEB资源建模[D];景德镇陶瓷学院;2011年
3 丁若尧;基于博客的网络话题发现及追踪的研究[D];北京交通大学;2011年
4 俞飞;基于网络信息文本倾向性分析的领域应用研究[D];华东师范大学;2011年
5 刘亚南;KNN文本分类中基于遗传算法的特征提取技术研究[D];中国石油大学;2011年
6 苏洪堂;招标智能办公系统的研究与应用[D];太原科技大学;2011年
7 耿爱媛;基于GA-BP神经网络的智能评语生成的研究[D];天津财经大学;2011年
8 罗武;农业知识库知识录入系统关键技术研究与实现[D];湖南农业大学;2011年
9 张洹宁;论网络信息资源的价值及其科学评价[D];成都理工大学;2011年
10 邓飞;基于本体的查询扩展研究[D];辽宁科技大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期
2 陈嘉勇;;基于WEKA平台的文本聚类研究与实现[J];中国管理信息化;2009年21期
3 孙桂煌;;一种基于n-gram短语的文本聚类方法研究[J];现代计算机(专业版);2011年14期
4 袁伟;朱山风;;基于距离学习的生物医学文本聚类算法研究[J];计算机应用与软件;2010年11期
5 尉景辉,何丕廉,孙越恒;基于K-Means的文本层次聚类算法研究[J];计算机应用;2005年10期
6 马晓佳;;基于潜在语义标引的文本聚类研究[J];情报探索;2010年07期
7 李刚;史向东;;基于Google搜索结果的重名消解方法[J];信息与电脑(理论版);2011年02期
8 毛嘉莉;;基于K-means的文本聚类算法[J];计算机系统应用;2009年10期
9 刘鑫;张曾杰;李晓城;钱松荣;;主题兴趣度提取方法及其在用户兴趣模型中的应用研究[J];微型电脑应用;2011年03期
10 朱红灿,孟志青;一种基于SOM和层次凝聚的中文文本聚类方法[J];湘潭大学自然科学学报;2005年03期
中国重要会议论文全文数据库 前10条
1 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
2 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
3 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
4 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
6 李明;;语料库·蓝本·双语词典[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
7 郭启新;;论语料库与英汉词典配例[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
8 蔡莲红;蔡锐;吴志勇;陶建华;;语音合成语料库的设计与声学特征分析[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
9 孙述学;;新词语语料库建设的一些构想[A];2004年辞书与数字化研讨会论文集[C];2004年
10 王仁华;胡郁;李威;凌震华;;基于决策树的汉语大语料库合成系统[A];第六届全国人机语音通讯学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
2 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
3 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
4 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
5 记者 曹秀娟;省社科院两项目获得国家社会科学基金[N];山西日报;2010年
6 顾曰国;语料库语言学的发展[N];中国社会科学院院报;2003年
7 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
8 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
9 李大庆;迎来光与电告别铅与火[N];科技日报;2002年
10 ;探索普通话自然连续语音之规律[N];光明日报;2001年
中国博士学位论文全文数据库 前10条
1 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
2 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
3 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
4 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
5 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
6 何婷婷;语料库研究[D];华中师范大学;2003年
7 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
8 王青;基于语料库的《尤利西斯》汉译本译者风格研究[D];山东大学;2010年
9 王永恒;海量短语信息挖掘技术的研究与实现[D];国防科学技术大学;2006年
10 唐斌;《人民日报》中(1987-2007)农民工的话语再现[D];上海外国语大学;2010年
中国硕士学位论文全文数据库 前10条
1 姚清耘;基于向量空间模型的中文文本聚类方法的研究[D];上海交通大学;2008年
2 李洋;企业注册登记文件聚类软件设计与实现[D];大连理工大学;2007年
3 潘延军;基于用户浏览内容的Web用户浏览行为个性化研究[D];天津大学;2005年
4 马玉静;基于群体智能的文本聚类技术研究[D];燕山大学;2009年
5 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
6 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
7 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
8 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
9 王冬;基于语义特征的文本聚类的研究与实现[D];吉林大学;2008年
10 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026