收藏本站
《情报科学》 2015年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于LDA模型的文本聚类研究

王鹏  高铖  陈晓美  
【摘要】:在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的相似性度量,然后采用层次聚类法进行聚类。实验得到较高的聚类纯度(Purity)和Fscore值,表明该方法是有效的。

知网文化
【参考文献】
中国期刊全文数据库 前5条
1 姚全珠;宋志理;彭程;;基于LDA模型的文本分类研究[J];计算机工程与应用;2011年13期
2 张玉芳,毛嘉莉,熊忠阳;一种改进的K-means算法[J];计算机应用;2003年08期
3 何婷婷;戴文华;焦翠珍;;基于混合并行遗传算法的文本聚类研究[J];中文信息学报;2007年04期
4 段明秀;杨路明;;对层次聚类算法的改进[J];湖南理工学院学报(自然科学版);2008年02期
5 孙昌年;郑诚;夏青松;;基于LDA的中文文本相似度计算[J];计算机技术与发展;2013年01期
【共引文献】
中国期刊全文数据库 前10条
1 李业丽;秦臻;;一种改进的k-means算法[J];北京印刷学院学报;2007年02期
2 江炳坤;任超;秦永波;;K-means算法复杂度的能量分析方法[J];成都信息工程学院学报;2010年06期
3 冯杨民;张菊清;;基于K-means聚类的多面函数及其在DEM内插中的应用[J];测绘工程;2009年02期
4 陈寿文;李明东;;基于面向对象思想KMeans算法实现[J];滁州学院学报;2008年03期
5 陈勇;陈健;;一个基于k-means算法的聚类[J];东莞理工学院学报;2010年03期
6 李丽珊,朱文兴;基于簇中心动态迁移的一个聚类算法[J];福建农业大学学报;2004年04期
7 辛国江;邹北骥;刘相滨;康晶;;运动物体的阴影检测与分割[J];工程图学学报;2007年06期
8 张敏;;基于数据挖掘的入侵检测系统研究[J];硅谷;2009年17期
9 乔娟;;聚类分析在教学管理中的应用研究[J];硅谷;2013年01期
10 吴维;肖诗斌;;基于多特征与复合分类法的中文微博情感分析[J];北京信息科技大学学报(自然科学版);2013年04期
中国重要会议论文全文数据库 前2条
1 江华;王翰虎;陈梅;;一种基于K-means聚类分组的P2P超结点模型[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
2 付伟;白永超;辛阳;;一种基于Hadoop和K-means的Web日志分析方案的设计[A];第十九届全国青年通信学术年会论文集[C];2014年
中国博士学位论文全文数据库 前5条
1 李德顺;基于广义集对分析的系统危险性评价研究[D];东北大学 ;2010年
2 杨振舰;可视化数据挖掘技术在城市地下空间GIS中的应用研究[D];河北工业大学;2012年
3 陈晓美;网络评论观点知识发现研究[D];吉林大学;2014年
4 冯录召;急性呼吸道感染住院病例病毒性病原谱及流感季节性研究[D];中国疾病预防控制中心;2014年
5 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年
中国硕士学位论文全文数据库 前8条
1 刘荣辉;基于主动学习的半监督谱聚类算法研究[D];重庆大学;2011年
2 刘海波;动态Web信息监测相关技术研究[D];哈尔滨工业大学;2011年
3 王莹莹;中文短语相似度计算方法研究及应用[D];长沙理工大学;2008年
4 徐丹丹;专利文本聚类分析及可视化研究[D];南京理工大学;2009年
5 刘杰;知识管理系统中的知识树的自动构建技术研究[D];重庆大学;2009年
6 钱铭宇;基于移动技术的答疑系统研究[D];东北师范大学;2010年
7 严桂夺;基于主题聚类的网页目录结构构建方法研究[D];华南理工大学;2010年
8 徐晓明;专利文本聚类及关键短语抽取的研究[D];东北大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 伍建军;康耀红;;文本分类中特征降维方式的研究[J];海南大学学报(自然科学版);2007年01期
2 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
3 孟海东;张玉英;;基于密度和对象方向聚类算法的改进[J];计算机工程与应用;2006年20期
4 万小军,杨建武,陈晓鸥;文档聚类中k-means算法的一种改进算法[J];计算机工程;2003年02期
5 黄承慧;印鉴;侯昉;;一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J];计算机学报;2011年05期
6 陈浩,何婷婷,姬东鸿;基于k-means聚类的无导词义消歧[J];中文信息学报;2005年04期
7 李峰;李芳;;中文词语语义相似度计算——基于《知网》2000[J];中文信息学报;2007年03期
8 江敏;肖诗斌;王弘蔚;施水才;;一种改进的基于《知网》的词语语义相似度计算[J];中文信息学报;2008年05期
9 陈恩红;王上飞;宁岩;王煦法;;一种利用代表点的有效聚类算法设计与实现[J];模式识别与人工智能;2001年04期
10 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
【相似文献】
中国期刊全文数据库 前10条
1 刘务华;罗铁坚;王文杰;;文本聚类技术的有效性验证[J];计算机工程;2007年01期
2 丁堃;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[J];科学学研究;2007年S1期
3 丘志宏;宫雷光;;利用上下文提高文本聚类的效果[J];中文信息学报;2007年06期
4 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期
5 王崇国;;以事件为特征的文本聚类方法[J];计算机应用与软件;2010年08期
6 王利峰;;动态索引树文本聚类方法中节点阀值的优化[J];电脑开发与应用;2010年09期
7 高松;冯志伟;;基于依存树库的文本聚类研究[J];中文信息学报;2011年03期
8 曲超;潘晓衡;朱君;蔡少仲;胡天明;;基于单词超团的文本聚类方法[J];计算机工程;2011年11期
9 周扬;屈武斌;卢一鸣;张成岗;杨毅;;基于文本频谱的中文文本聚类方法[J];四川大学学报(自然科学版);2012年06期
10 明均仁;;基于本体图的文本聚类模型研究[J];情报科学;2013年02期
中国重要会议论文全文数据库 前10条
1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
8 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
9 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
10 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年
中国博士学位论文全文数据库 前3条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 张猛;文本聚类中参数自动设置技术的研究与实现[D];东北大学;2005年
2 周昭涛;文本聚类分析效果评价及文本表示研究[D];中国科学院研究生院(计算技术研究所);2005年
3 谢凤宏;基于复杂网络理论的文本聚类和关键词提取方法研究[D];辽宁师范大学;2011年
4 徐晓明;专利文本聚类及关键短语抽取的研究[D];东北大学;2011年
5 郑韫旸;基于k-平均算法的文本聚类系统研究与实现[D];武汉理工大学;2008年
6 王智超;基于边界距离的文本聚类方法研究[D];沈阳航空工业学院;2008年
7 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
8 龚静;中文文本聚类中特征选择算法的研究[D];湘潭大学;2006年
9 王月;改进的模糊C-均值算法在文本聚类中的应用研究[D];辽宁工程技术大学;2009年
10 李迪;基于文本聚类和语料库的信誉维度发现研究[D];华中科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026