收藏本站
《计算机工程与应用》 2010年07期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种用于抄袭识别的文档距离度量

胡明晓  DING Leon X  
【摘要】:广义编辑距离的计算是一个NP-完全问题,在充分考虑了文档抄袭行为的特点之后提出一种基于广义编辑距离的单向的低计算复杂性的文档距离度量方法。首先,计算第一文档的各段落在第二文档全文中的近似串匹配距离之和,同时确定各段落在第二文档中的近似匹配子串(即原象串),然后根据这些原象串得到回退数和前跳数,最后将三者求和作为文档距离。该文档距离是一种广义编辑距离的近似值,能够在O(n2)时间内计算,并能充分反映抄袭方向。针对人工文档和实际文档的两组实验表明该距离具有较低的漏检率、误检率。
【作者单位】温州大学计算机科学与工程学院;IBM多伦多实验室;
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前2条
1 鲍军鹏,沈钧毅,刘晓东,宋擒豹;自然语言文档复制检测研究综述[J];软件学报;2003年10期
2 张琼妮;肖刚;张元鸣;吕慧强;;一种基于Word自定义模板的文档管理模式[J];浙江工业大学学报;2006年01期
中国硕士学位论文全文数据库 前1条
1 秦新国;电子作业管理和作业抄袭检测技术研究[D];南京师范大学;2007年
【共引文献】
中国期刊全文数据库 前4条
1 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期
2 金博,史彦军,滕弘飞;中文文档复制检测系统研究[J];计算机工程;2005年19期
3 白广慧,连浩,刘悦,程学旗;网页查重技术在企业数据仓库中的应用[J];计算机应用;2005年07期
4 孙晓山;王强;关毅;王晓龙;;一种改进的Wu-Manber多模式匹配算法及应用[J];中文信息学报;2006年02期
中国博士学位论文全文数据库 前1条
1 于宝琴;成套电器企业异构数据整合及其物流系统的研究[D];天津大学;2006年
中国硕士学位论文全文数据库 前10条
1 陈鑫;基于短信平台的铁路订票模型研究[D];广东工业大学;2007年
2 瞿继合;基于Web的数据挖掘技术研究[D];东北财经大学;2005年
3 范立新;用位并行法进行过滤的中文近似串匹配算法[D];浙江大学;2006年
4 连浩;基于布尔模型的网页查重算法研究[D];中国科学院研究生院(计算技术研究所);2006年
5 熊志勇;数据挖掘在反垃圾邮件领域中的应用与研究[D];南昌大学;2006年
6 于海英;程序代码相似度识别的研究[D];内蒙古师范大学;2006年
7 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
8 郭传鹏;计算机操作痕迹清除系统的研究与实现[D];解放军信息工程大学;2006年
9 王凤嫔;垃圾邮件的并行过滤模型及算法研究与实现[D];大庆石油学院;2007年
10 程克敏;基于文本结构和内容的中文论文复制检测系统研究[D];合肥工业大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 刘永革,鲁振操,段向培;基于ASP的网络实验报告管理系统[J];安阳师范学院学报;2005年02期
2 方利伟;;基于WEB的通用实验报告管理系统的设计与实现[J];中国远程教育;2006年01期
3 史彦军,滕弘飞,金博;抄袭论文识别研究与进展[J];大连理工大学学报;2005年01期
4 许兴国,许华虎;基于Web的智能化网络管理系统的设计与实现[J];贵州工业大学学报(自然科学版);2002年04期
5 何明;胡彩霞;;一种文本相似性的度量方法和计算方法[J];黄山学院学报;2005年06期
6 杨建武,陈晓鸥;基于倒排索引的文本相似搜索[J];计算机工程;2005年05期
7 金博,史彦军,滕弘飞;中文文档复制检测系统研究[J];计算机工程;2005年19期
8 宋擒豹,杨向荣,沈钧毅,齐勇;数字商品非法复制的检测算法[J];计算机学报;2002年11期
9 张元鸣,肖刚,单继宏,程振波,王昌建;产品分类的自组织模型研究及应用[J];机械设计;2003年05期
10 肖刚,王洪恩,王昌建,单继宏,张元鸣;基于Word文档的数据交换策略及其实现[J];计算机应用与软件;2004年03期
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026