收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于主题概念聚类的中文文本聚类

杨彩莲  谢福鼎  
【摘要】:文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题,提出一种基于主题概念聚类的中文文本聚类方法,该方法利用HowNet提取文本的主题概念,然后使用Chameleon算法将主题概念聚类,再依据主题概念的聚类结果完成对文本的聚类。该方法用概念代替单个词条表示文本,减少文本特征之间的依赖关系,有效地降低了文本聚类的时间复杂度。

知网文化
【相似文献】
中国期刊全文数据库 前3条
1 郝秀兰,杨尔弘,舒鑫柱;基于How Net的事件角色语义特征提取[J];中文信息学报;2001年05期
2 张晶,姚建民,赵铁军,李生;基于Word Net和How Net建设双语语义词典[J];高技术通讯;2001年12期
3 芦立华;张恒振;;一种中文文本聚类算法的研究[J];科技信息(学术版);2006年12期
中国重要会议论文全文数据库 前1条
1 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978