收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于改进的Jaccard系数文档相似度计算方法

俞婷婷  徐彭娜  江育娥  林劼  
【摘要】:文本相似度主要应用于学术论文查重检测、搜索引擎去重等领域,而传统的文本相似度计算方法中的特征项提取与分词环节过于冗杂,而且元素的随机挑选也会产生权重的不确定性.为了解决传统方法的不足,提出一种基于改进的Jaccard系数确定文档相似度的方法,该算法综合考虑了各元素、样本在文档中的权重及其对多个文档相似度的贡献程度.实验结果表明,基于改进的Jaccard系数的文档相似度算法具有实效性并且能够得到较高的准确率,适用于各种长度的中英文文档,有效地解决现有技术中存在的文档间相似度计算不精的问题.

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 赵军;胡栓柱;樊兴华;;一种新的词语相似度计算方法[J];重庆邮电大学学报(自然科学版);2009年04期
2 蔡东风;白宇;于水;叶娜;任晓娜;;一种基于语境的词语相似度计算方法[J];中文信息学报;2010年03期
3 丁政建;张路;;一种改进的本体相似度计算方法[J];计算机工程;2010年24期
4 朱珍元;郑诚;;一种改进的本体相似度计算方法[J];微型机与应用;2011年01期
5 崔韬世;麦范金;;词语相似度计算方法分析[J];网络安全技术与应用;2012年05期
6 王国春;郑山红;赵辉;董亚则;;基于阶段递进的综合本体相似度计算方法[J];吉林大学学报(信息科学版);2014年02期
7 张忠平;田淑霞;刘洪强;;一种新的本体相似度计算方法[J];计算机应用研究;2008年10期
8 赵欢;李仁发;王家琴;张在美;;综合多层信息的本体概念相似度计算方法的研究[J];通信学报;2009年06期
9 李改;李章凤;李磊;;一种新的社会化相似度计算方法[J];计算机应用研究;2013年09期
10 曾辉;徐海洲;钟茂生;;基于主题和焦点的问句相似度计算方法[J];科学技术与工程;2014年06期
11 张忠平;田淑霞;刘洪强;;一种综合的本体相似度计算方法[J];计算机科学;2008年12期
12 李迎凯;徐小良;;一种改进的基于知网的句子相似度计算方法[J];电子科技;2012年07期
13 吕刚;郑诚;;基于加权的本体相似度计算方法[J];计算机工程与设计;2010年05期
14 陆军;;一种综合概念相似度计算方法[J];甘肃科技;2010年03期
15 石静;吴云芳;邱立坤;吕学强;;基于大规模语料库的汉语词义相似度计算方法[J];中文信息学报;2013年01期
16 张敏;王振辉;王艳丽;;一种基于《知网》知识描述语言结构的词语相似度计算方法[J];计算机应用与软件;2013年07期
17 王东;熊世桓;;一种新颖的汉字字形相似度计算方法[J];计算机应用研究;2013年08期
18 杨思春,程节华,陈家骏,王启祥;一种基于模式的汉语句子相似度计算方法[J];微型机与应用;2001年08期
19 李苏梅;韩国强;;感兴趣区域的确定及相似度计算方法[J];湖南工业大学学报;2008年04期
20 吴全娥;熊海灵;;一种综合多特征的句子相似度计算方法[J];计算机系统应用;2010年11期
中国重要会议论文全文数据库 前6条
1 白宇;于水;叶娜;蔡东风;任晓娜;;一种基于语境的词语相似度计算方法[A];第五届全国信息检索学术会议论文集[C];2009年
2 乔林;黄维通;孟威;;一种改进的知网系统词语相似度计算方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 菅小艳;郑家恒;;一种改进的句子相似度计算方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 卢延科;尹宝生;张桂平;苗雪雷;白宇;;基于伪LCS的中文专利句子相似度计算方法[A];第五届全国信息检索学术会议论文集[C];2009年
5 章志凌;虞立群;罗海飞;邵晓敏;;基于改进Corpus库的词语相似度计算方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
6 章成志;李斌;;基于混合策略的查询串相似度计算方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前3条
1 蔡圆媛;基于知识整合的词汇语义相似度计算方法研究[D];北京交通大学;2016年
2 万庆生;领域问答系统问句相似度计算方法研究[D];哈尔滨工程大学;2014年
3 吴小坤;轻量级服务推荐算法研究[D];北京邮电大学;2015年
中国硕士学位论文全文数据库 前10条
1 唐积益;推荐系统中相似度计算方法的研究[D];江苏科技大学;2015年
2 张广源;微博检索系统关键技术研究与实现[D];北京工业大学;2015年
3 尹路修;XML文档的聚类研究[D];湖南师范大学;2015年
4 邹能清;一种基于语义网络的中文文本相似度计算方法[D];湘潭大学;2015年
5 邬明强;基于分段融合的藏文文本相似度计算方法研究[D];西北民族大学;2016年
6 吕亚伟;食品安全网络舆情监测方法研究[D];北京化工大学;2016年
7 王璐;一种综合多层次信息的句子相似度计算方法研究[D];重庆大学;2016年
8 高鹏杨;基于多标签学习框架的微博文本分类研究[D];东南大学;2016年
9 万青云;并行LDA、聚类算法的研究及应用[D];南昌大学;2016年
10 解倩倩;汉维辅助翻译系统中结合词向量的句子相似度计算方法研究[D];新疆大学;2017年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978