收藏本站
《中国电力教育》 2009年S1期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于文本相似度的中文文本聚类的研究

毛鑫  李艳梅  黄伟  
【摘要】:文本聚类无论是作为独立的工具,还是作为其他文本挖掘的基础,其应用前景都是非常可观的。在聚类过程中,对文本的处理及相似度的计算往往花费大量的时间,在实际应用中并不是每次都需要对所有文本进行处理和计算的,因此本文提出基于文本相似度的中文文本聚类方法,利用保存文本相似度的中间结果,并且将与其他文档相似度低于阈值的文档作为孤立点处理,不仅大大提高了聚类的效率和精确度,也符合实际的应用情况。

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
2 周水庚,关佶红,胡运发;基于文档实例的中文信息检索[J];计算机工程与应用;2000年10期
3 邓英,李明;Web数据挖掘技术及工具研究[J];计算机工程与应用;2001年20期
4 李睿,李明;Web数据挖掘技术探讨[J];甘肃科技;2001年03期
5 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
6 林鸿飞,杨元生;用户兴趣模型的表示和更新机制[J];计算机研究与发展;2002年07期
7 姜宁,宫秀军,史忠植;高维特征空间中文本聚类研究[J];计算机工程与应用;2002年10期
8 郑毅,吴斌,史忠植;基于概念空间的文本检索系统[J];计算机工程与应用;2002年12期
9 李家福,陆建江,张亚非;模糊聚类算法在汉语文本聚类中的应用[J];计算机工程;2002年04期
10 张 阳,李建良,胡正国;NewsGrouper:一个自动抽取重要新闻的软件工具[J];计算机工程;2002年04期
中国重要会议论文全文数据库 前10条
1 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
2 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 邱立坤;程葳;龙志祎;孙娇华;;面向BBS的话题挖掘初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 何二宝;梁满贵;李俊杰;;智能电话号码语音查询系统[A];第八届全国人机语音通讯学术会议论文集[C];2005年
5 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
6 彭怡;;从数据挖掘文章聚类分析看其发展趋势[A];现代工业工程与管理研讨会会议论文集[C];2006年
7 朱强生;田英;周延泉;何华灿;;基于非负因子分析的模糊文本挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
8 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
9 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
10 丁堃;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[A];第三届科技政策与管理学术研讨会暨第二届科教发展战略论坛论文汇编[C];2007年
中国重要报纸全文数据库 前2条
1 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
中国博士学位论文全文数据库 前4条
1 戈鹏;敏捷化CAPP系统原理、关键技术与应用实践[D];四川大学;2003年
2 何清;机器学习与文本挖掘若干算法研究[D];中国科学院研究生院(计算技术研究所);2002年
3 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
4 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
3 刘立平;一种中文文本聚类方法的研究[D];湘潭大学;2003年
4 张俊艳;基于SVM有聚类指导的Web中文文本分类器的研究及其实现[D];福州大学;2004年
5 马国俊;潜在语义索引在中文文本聚类中的应用研究[D];西安建筑科技大学;2004年
6 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
7 袁磊;基于概率模型的文本聚类[D];吉林大学;2005年
8 杨文忠;基于近似网页聚类算法的Web文本数据挖掘技术的研究与应用[D];湖南大学;2005年
9 张猛;文本聚类中参数自动设置技术的研究与实现[D];东北大学;2005年
10 朱红灿;基于SOM的两阶段中文文本聚类算法的研究[D];湘潭大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026