收藏本站
《计算机学报》 2018年08期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于Multi-Agent的分布式文本聚类模型

乔少杰  韩楠  金澈清  高云君  李天瑞  唐常杰  康健  
【摘要】:Internet网络大数据与日俱增,当前亟需设计出能够处理大规模半结构化和无结构化文本数据的新型聚类方法.现有工作的不足体现在:应用的文本集较为单一,对半结构和无结构的Web文本进行聚类的准确性较低,当文档规模较大时聚类的时效性无法得到保证.针对上述不足,提出新的基于群体智能的文本聚类模型Switch(a Swarm intelligence based text clustering algorithm),支持包括藏文、汉文、英文等多语言的文本聚类.基本思想为:构建文本的向量空间模型,借助自然语言处理和数据预处理技术得到由特征向量构成的文本集合;对群体智能文本聚类算法的参数进行初始化,不同智能体可以在二维文本空间上任意移动,计算其所在网格区域文本与其他样本的相似度,利用概率转换函数求取智能体拿起和放下样本的概率,进而实现文本聚类.提出分布式动态文本流聚类的multi-agent架构,将这一架构应用于群体智能文本聚类算法中,分布式工作环境被设计成相互通信的软agents集合,设计了相似度计算,智能体状态感知,文本解析三类智能体.通过解决智能体状态同步、处理器负载均衡和处理器之间通信的代价问题,将计算任务分成不同子任务,在多处理器上分布执行.此外,阐述了基于multi-agent的分布式群体智能文本聚类方法的工作原理,给出一种分布式通信架构,各种智能体相互通信,相互协作完成文本聚类工作.基于multi-agent通过JADE(Java Agent Development Framework)中间件实现集群上的分布式文本聚类,优势在于:分布式计算和大内存处理较单机具有更好的处理能力,借助JADE中间件能够使智能体间相互通信及协作,实现高效的文本聚类.在大量真实的半结构化包含藏文、汉文和英文多语言的Web文本数据集上进行实验,以藏文为例,实验结果表明:相比于k-means和单节点上的群体智能聚类算法,提出的分布式架构下文本聚类算法准确性平均高出12.2%和3.8%,时间代价平均缩减了73.0%和50.6%.在n个节点集群下agents数量介于150~250之间时,文本聚类时间代价近似可以达到单节点的1/n.

【相似文献】
中国期刊全文数据库 前10条
1 乔少杰;韩楠;金澈清;高云君;李天瑞;唐常杰;康健;;基于Multi-Agent的分布式文本聚类模型[J];计算机学报;2018年08期
2 黄建宇;周爱武;肖云;谭天诚;;基于特征空间的文本聚类[J];计算机技术与发展;2017年09期
3 杨婉霞;孙理和;黄永峰;;结合语义与统计的特征降维短文本聚类[J];计算机工程;2012年22期
4 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期
5 张毓;陈军清;;基于深度特征语义学习模型的垃圾短信文本聚类研究[J];现代计算机(专业版);2018年07期
6 毕强;刘健;鲍玉来;;基于语义相似度的文本聚类研究[J];现代图书情报技术;2016年12期
7 吴锡坤;刘洋;;基于社交网络中非平衡文本聚类方法的研究[J];科技创新导报;2016年13期
8 李向东;刘晓斌;武利平;常洪梅;;面向路线图编制的模糊均值文本聚类挖掘方法研究[J];河北工业大学学报;2011年03期
9 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[J];中文信息学报;2007年02期
10 车蕾;杨小平;;多特征融合文本聚类的新闻话题发现模型[J];国防科技大学学报;2017年03期
中国重要会议论文全文数据库 前10条
1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 张越今;丁丁;;敏感话题发现中的增量型文本聚类模型[A];第30次全国计算机安全学术交流会论文集[C];2015年
3 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年
4 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 林灵;张百霞;李彦文;王耘;李志勇;;基于文本挖掘与计算机辅助药物设计的中药候选新药发现方法[A];第十二次全国中西医结合实验医学专业委员会暨第七次湖南省中西医结合神经科专业委员会学术年会论文集[C];2015年
8 孙承杰;朱文焕;林磊;刘远超;;BBS短文本聚类技术研究[A];第五届全国信息检索学术会议论文集[C];2009年
9 赵飞;周渝慧;;基于Multi-Agent的电价预测支持系统设计[A];2009电力行业信息化年会论文集[C];2009年
10 张刚;殷国富;邓克文;李火生;;基于Multi-Agent的复杂结构产品设计模型[A];全国第13届计算机辅助设计与图形学(CAD/CG)学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
3 李春梅;基于Internet/Intranet和Multi-Agent的企业经营战略群体决策支持系统研究[D];昆明理工大学;2001年
4 何增镇;基于Multi-Agent与博弈论的城市交通控制诱导系统及其关键技术研究[D];中南大学;2010年
5 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
6 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
7 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
8 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
9 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
10 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
中国硕士学位论文全文数据库 前10条
1 邹雪君;基于全覆盖粒计算的文本特征选择和聚类研究[D];太原理工大学;2018年
2 蒋乔薇;面向特定领域的话题检测系统的设计与实现[D];北京邮电大学;2018年
3 王惠;基于LDA主题模型的文本聚类研究[D];兰州大学;2018年
4 张瑞琴;基于Hadoop云计算平台的文本聚类并行化研究[D];沈阳工业大学;2018年
5 王丰;基于GPU并行的K-MEANS算法研究及其在文本聚类的应用[D];武汉邮电科学研究院;2018年
6 王伟超;基于Hadoop的中文微博热点话题发现方法研究[D];东北大学;2016年
7 方自云;基于hSync算法的文本聚类方法研究[D];武汉理工大学;2015年
8 王宇;基于统计学习方法的高斯LDA模型的文本聚类研究[D];华侨大学;2017年
9 李舒颖;移动应用缺陷报告的文本聚类技术研究[D];南京大学;2017年
10 张天宇;基于改进CFSFDP算法的电信投诉文本聚类方法研究[D];杭州电子科技大学;2017年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026