收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于依存树库的文本聚类研究

高松  冯志伟  
【摘要】:文本聚类是信息检索的重要内容。为了避免使用计算过程复杂的聚类算法,并能从语言学角度对聚类特征和聚类结果进行分析和解释,该文提出了采用句法分布信息进行文本聚类的方法。在汉语依存树库中,得出10种具有显著差异的词类依存关系,以其中5种依存关系作为聚类特征,访谈会话类和新闻播报类文本的相似度分别为71.98%和83.13%。实验结果验证了该方法利用依存关系对文本聚类的可行性和有效性。

知网文化
【相似文献】
中国期刊全文数据库 前10条
1 冯冰洁;杨天奇;;后缀树聚类算法在元搜索引擎中的应用[J];微计算机信息;2010年03期
2 张春炉;沈建京;;基于SOM算法的文本聚类实现[J];计算机与现代化;2010年01期
3 王鹏;樊兴华;;中文文本分类中利用依存关系的实验研究[J];计算机工程与应用;2010年03期
4 熊忠阳;暴自强;李智星;张玉芳;;结合LSA的中文谱聚类算法研究[J];计算机应用研究;2010年03期
5 马素琴;施化吉;李星毅;;基于语义列表的中文文本聚类算法[J];计算机应用研究;2010年05期
6 唐果;陈宏刚;;基于BBS热点主题发现的文本聚类方法[J];计算机工程;2010年07期
7 马世霞;刘丹;贾世杰;;基于蚁群算法的文本聚类算法[J];计算机工程;2010年08期
8 张立文;徐家宁;李进;李孝闯;;基于免疫网络和SOM的文本聚类算法研究[J];计算机应用与软件;2010年05期
9 杨延锟;许少华;;基于FVSM的核聚类算法在文本聚类中的应用[J];长江大学学报(自然科学版)理工卷;2010年01期
10 刘晓勇;;基于最优适值保留的蚁群文本聚类算法[J];计算机工程与科学;2010年05期
中国重要会议论文全文数据库 前10条
1 买买提依明·哈斯木;维尼拉·木沙江;;研究维吾尔文Web文档聚类算法设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 邹晓玫;修春波;;基于聚类分析的犯罪率相关因素的研究[A];当代法学论坛(二○一○年第3辑)[C];2010年
3 陈小芳;张桂平;蔡东风;叶娜;;基于统计和规则相结合的汉语术语语义分析方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 张俊平;袁兰;胡月明;;应用二步聚类算法对耕地质量智能分级[A];Proceedings of 2010 International Conference on Remote Sensing (ICRS 2010) Volume 3[C];2010年
5 郑述平;;创设找矿权 推进地勘经济发展方式的转变[A];中国地质矿产经济学会地矿经济理论与应用研讨会论文集[C];2010年
6 姚明宇;皮德常;丛湘香;;基于k-means的中文文本聚类算法[A];Proceedings of 2010 International Conference on Services Science, Management and Engineering(Volume 2)[C];2010年
7 胡玉娴;;基于《知网》和遗传算法的中文文本聚类特征选择[A];2009全国计算机网络与通信学术会议论文集[C];2009年
8 郑慧;赵昕;;基于VAR模型下中国海洋产业发展与宏观经济增长关联机制研究[A];2009’中国渔业经济专家论坛论文摘要集[C];2009年
9 赵海;揭春雨;宋彦;;基于字依存树的中文词法-句法一体化分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 李正华;车万翔;刘挺;;基于柱状搜索的高阶依存句法分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
2 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
3 常鹏;基于词共现的文本主题挖掘模型和算法研究[D];天津大学;2010年
4 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
5 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
6 张邦佐;基于正例和无标记样例学习研究[D];吉林大学;2009年
7 张晨;数据流聚类分析与异常检测算法[D];复旦大学;2009年
8 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
9 王红玲;基于特征向量的中英文语义角色标注研究[D];苏州大学;2009年
10 张烨;欠定混合信号的盲分离[D];上海大学;2009年
中国硕士学位论文全文数据库 前10条
1 曾静静;基于Map-Reduce构建高效文本聚类系统[D];上海交通大学;2011年
2 张庐颖;基于粗糙集的K-means研究[D];北京交通大学;2011年
3 李艳霞;基于概念格的K-Means算法研究及应用[D];大连海事大学;2010年
4 马素琴;基于相似度的文本聚类算法研究及应用[D];江苏大学;2010年
5 许厚金;垂直搜索引擎及其关键方法研究[D];燕山大学;2010年
6 李海峰;基于概念格的Web文本聚类过程模型研究[D];吉林大学;2010年
7 宋嘎子;网络热点舆情的发现及预警模型研究[D];暨南大学;2010年
8 李芳;改进的支持向量聚类算法及其应用研究[D];大连理工大学;2010年
9 冯冰洁;后缀树算法在元搜索引擎中的应用[D];暨南大学;2010年
10 汪磊锋;基于频繁特征词语集的文本聚类研究[D];安徽大学;2010年
中国重要报纸全文数据库 前10条
1 公共管理学博士 曹军新;弹指一挥40年[N];上海证券报;2011年
2 郑成宏 沈海涛;建立东亚共同体必要但路艰[N];中国社会科学报;2010年
3 郑成宏 沈海涛;建立东亚共同体必要但路艰[N];中国社会科学报;2010年
4 郑成宏 沈海涛;建立东亚共同体必要但路艰[N];中国社会科学报;2010年
5 郑成宏 沈海涛;建立东亚共同体必要但路艰[N];中国社会科学报;2010年
6 郑成宏 沈海涛;建立东亚共同体必要但路艰[N];中国社会科学报;2010年
7 郑成宏 沈海涛;建立东亚共同体必要但路艰[N];中国社会科学报;2010年
8 郑成宏 沈海涛;建立东亚共同体必要但路艰[N];中国社会科学报;2010年
9 郑成宏 沈海涛;建立东亚共同体必要但路艰[N];中国社会科学报;2010年
10 郑成宏 沈海涛;建立东亚共同体必要但路艰[N];中国社会科学报;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978