收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

海量短语信息文本聚类技术研究

王永恒  贾焰  杨树强  
【摘要】:信息技术的发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本聚类技术对于从海量短文中自动获取知识具有重要意义。现有的一般文本挖掘方法很难处理TB级的海量数据。由于短文本中的关键词出现次数少,文本挖掘的精度很难保证。该文提出了一种基于频繁词集并结合语义信息的并行聚类算法来解决海量短语信息的聚类问题。实验表明,该方法在处理海量短语信息时具有很好的性能和准确度。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 康曙光;裴志利;孔英;;基于改进遗传算法的WEB文本挖掘系统[J];内蒙古民族大学学报;2009年02期
2 黄凯峰;何洁月;;基于生物医学文献的知识发现研究[J];计算机技术与发展;2008年02期
3 罗勇;何玉珠;;外场高速数据采集系统的研制[J];电子测量技术;2006年02期
4 肖红;康岚兰;;文本挖掘与信息融合技术在高校信息网络中的应用[J];科技广场;2006年11期
5 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
6 关庆珍;周竹荣;;基于Ontology的用户模型研究[J];计算机应用;2007年10期
7 游福成,杨炳儒;知识发现状态空间统一模型及其应用[J];计算机工程;2005年19期
8 王立希;王建东;汪静;;基于数据挖掘的新词发现[J];计算机应用研究;2006年12期
9 张金乙;姜文志;蒋伟俊;王迪;;高速海量数据的接收和存储系统的设计与实现[J];计算机时代;2007年12期
10 王旭,霍炬,杨明;双相机空间定位硬件系统的构成研究[J];自动化技术与应用;2005年09期
11 高茂庭;陆鹏;;基于投影寻踪降维的文本特征可视化[J];计算机应用;2008年06期
12 曾联明;吴湘滨;刘鹏;;利用粒子群算法缩减大规模数据集SVM训练样本[J];计算机科学;2009年09期
13 万红新;彭云;;模糊策略下的搜索文本聚类分析技术[J];计算机工程与应用;2009年33期
14 王明春,王正欧;基于粗集与遗传算法相结合的文本模糊聚类方法[J];电子与信息学报;2005年04期
15 杨小忠;梁德成;刘士彬;;Envisat ASAR数据共享平台的设计与实现[J];遥感信息;2006年05期
16 卫婷;吴渝;李银国;;一种可伸缩的粒计算知识获取方法[J];计算机应用;2007年09期
17 吴渝;卫婷;李银国;;一种可伸缩的粒计算知识获取方法[J];重庆邮电大学学报(自然科学版);2008年05期
18 郭华;吴涧彤;王俊伟;;海量数据的实时通讯[J];演艺科技;2010年02期
19 麻元兴;林伟俊;;预防性维护在PACS管理中的应用[J];医疗卫生装备;2011年01期
20 郭炜强,文军,文贵华;基于贝叶斯模型的专利分类[J];计算机工程与设计;2005年08期
中国重要会议论文全文数据库 前2条
1 丁辉;张大华;罗志明;;基于Hadoop的海量数据处理平台研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年
2 林佳烨;;云计算在电信行业数据分析领域的应用[A];广东通信2010青年论坛优秀论文集[C];2010年
中国博士学位论文全文数据库 前8条
1 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
2 戴维迪;非监督知识发现过程中若干关键问题研究[D];天津大学;2005年
3 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
4 王泉德;机器学习及其在多Agent对策学习中的应用研究[D];武汉大学;2005年
5 郑恩辉;基于支持向量机的代价敏感数据挖掘研究与应用[D];浙江大学;2006年
6 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
7 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
8 赵青;面向海量数据的高效天文交叉证认的研究[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 詹子鹏;基于文本挖掘的主题分类专家系统的设计和实现[D];安徽大学;2007年
2 杨才远;浮标基海量数据高速传输技术研究[D];哈尔滨工程大学;2010年
3 杜圣东;基于多类支持向量机的文本分类研究[D];重庆大学;2007年
4 刘露;全球海量遥感影像数据的分布式管理技术研究[D];国防科学技术大学;2007年
5 李小展;基于文本挖掘的医学诊疗案例推理系统的研究与应用[D];广东工业大学;2011年
6 袁建军;电子商务海量数据的获取、存储以及检索[D];北京化工大学;2011年
7 丛中昌;基于云计算平台的电信经营分析系统中海量数据处理研究[D];南京邮电大学;2011年
8 茅剑;中文Web文本聚类研究[D];厦门大学;2007年
9 江永全;Web文档聚类系统的设计与实现[D];西南交通大学;2006年
10 杨静;基于海量数据的数据产品处理技术研究[D];河北工业大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978