收藏本站
《上海交通大学学报》 2006年05期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

网页去重策略

高凯  王永成  肖君  
【摘要】:提出基于同源网页去重与内容去重的策略.通过对网址URL进行哈希散列完成对同源网页的去重,并对内容相同或近似的网页采用基于主题概念的去重判断.实验表明,该方法有效且去重效果良好.基于上述算法实现了教育资源库教育资讯搜索引擎系统.

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 沙芸;张国英;孟凡亮;;基于关键词提取的娱乐新闻文档去重算法[J];广西师范大学学报(自然科学版);2007年02期
中国硕士学位论文全文数据库 前3条
1 王强;基于Web结构挖掘的敏感社团发现[D];解放军信息工程大学;2007年
2 张恒;基于军事应用的网络情报智能搜索技术[D];第四军医大学;2007年
3 范小源;搜索引擎系统网页消重的研究与实现[D];中南民族大学;2007年
【共引文献】
中国期刊全文数据库 前5条
1 徐凤刚;许俊奎;潘清;;可扩展Hash方法的一种改进算法[J];计算机工程与应用;2006年04期
2 詹川;卢显良;侯孟书;邢茜;;一种快速的基于URL的垃圾邮件过滤系统[J];计算机科学;2005年08期
3 杨海东;叶小岭;张颖超;;基于Hash算法实现搜索引擎中重复WEB页面的消除[J];微计算机信息;2006年27期
4 肖明忠;闵博楠;王佳聪;代亚非;;一个实用的针对URL的哈希函数[J];小型微型计算机系统;2006年03期
5 吴丽辉;白硕;张刚;张凯;;Web信息采集中的哈希函数比较[J];小型微型计算机系统;2006年04期
中国重要会议论文全文数据库 前2条
1 黄高平;苏金树;陈曙辉;;一种基于高速链路的Hash算法[A];2006年全国理论计算机科学学术年会论文集[C];2006年
2 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
中国博士学位论文全文数据库 前2条
1 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
2 谢鲲;布鲁姆过滤器查询算法及其应用研究[D];湖南大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
2 李淑静;基于内容的垃圾邮件过滤研究与实现[D];南京信息工程大学;2006年
3 赵敏涯;基于主题的新闻搜索引擎的研究与实现[D];扬州大学;2006年
4 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
5 孙珂;网站主题分析、标引与检索技术的研究[D];哈尔滨工业大学;2006年
6 赵钦;并行爬行器的架构与优化策略[D];北京工业大学;2006年
7 孙艳华;垃圾邮件过滤技术的研究[D];大连海事大学;2007年
8 黄高平;新一代通用分流控制器的研究与实现[D];国防科学技术大学;2006年
9 梅东霞;面向XML文档的数据挖掘技术研究[D];北京化工大学;2007年
10 罗理;基于Web对象的分布式抓取及存储的设计与研究[D];昆明理工大学;2008年
【同被引文献】
中国期刊全文数据库 前10条
1 王明春,王正欧;基于粗集与遗传算法相结合的文本模糊聚类方法[J];电子与信息学报;2005年04期
2 马颖华,王永成,苏贵洋,韩客松,赵海;自动标引中基于概念层次树的主题词轮排选择的算法实现[J];高技术通讯;2003年06期
3 韩正服;杨喜权;张一鸣;丛荣华;;基于特征码的大规模XML文档去重研究[J];中国管理信息化(综合版);2006年07期
4 昝红英,俞士汶;CCD及其应用[J];广西师范大学学报(自然科学版);2003年01期
5 赵欣欣;索红光;刘玉树;;基于改进汉宁窗的信息检索模型[J];广西师范大学学报(自然科学版);2006年04期
6 黄志强;贾宇波;;Web访问挖掘中数据预处理的改进[J];广西师范大学学报(自然科学版);2007年02期
7 刘楚达,孙海涛;一种基于统计的中文自动文摘方法[J];湖南农业大学学报;2001年06期
8 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
9 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
10 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
中国重要会议论文全文数据库 前1条
1 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前3条
1 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
2 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
3 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
中国硕士学位论文全文数据库 前10条
1 陈鑫;中文智能搜索引擎[D];四川大学;2004年
2 滕跃;基于用户兴趣的个性化WEB检索[D];清华大学;2004年
3 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
4 王军;中文搜索引擎的设计与实现[D];华中科技大学;2004年
5 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
6 连浩;基于布尔模型的网页查重算法研究[D];中国科学院研究生院(计算技术研究所);2006年
7 李立燕;中文科技文献自动摘要系统[D];电子科技大学;2006年
8 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
9 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
10 王星辉;搜索引擎设计分析与查询改进[D];电子科技大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 张敏;李锋;;PageRank算法研究[J];微计算机信息;2011年08期
2 李恒训;李南波;邱泳钦;徐燕;刘金刚;;基于结构驱动的网络论坛采集路径研究[J];计算机应用研究;2011年09期
3 林丽华;;用好SOSO的微博搜索功能[J];电脑迷;2011年16期
4 余光华;;网站优化对搜索引擎的影响[J];现代计算机(专业版);2011年12期
5 ;社交网络的未来[J];电脑迷;2011年11期
6 Panx;;搜索更随心,傲游3搜索功能自定义技巧[J];网络与信息;2011年07期
7 ;15条经典实用的网站优化技巧[J];计算机与网络;2010年17期
8 三好;;傲游多重搜索让你畅搜网络[J];电脑知识与技术(经验技巧);2011年08期
9 大江东去;;更换Chrome的Google默认搜索域名[J];电脑迷;2011年18期
10 杨望;;Web Spam技术的发展与防御[J];中国教育网络;2011年07期
中国重要会议论文全文数据库 前10条
1 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
2 王灿辉;张敏;马少平;;Web作弊与反作弊技术综述[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 樊景超;周国民;周义桃;;基于SDD改进算法的中文农业搜索引擎的研究[A];农业工程科技创新与建设现代农业——2005年中国农业工程学会学术年会论文集第三分册[C];2005年
4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
6 邹声元;周龙骧;;WWW文档的结构[A];第十五届全国数据库学术会议论文集[C];1998年
7 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
8 张成岗;周奇;;智能化的网络信息搜索引擎——数据检索及分析系统(DRANS)[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
9 王继民;彭波;孟涛;;基于搜索引擎日志发现相近Web查询[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
10 吴丽辉;张凯;张刚;王斌;;个性化Web信息采集系统PSearch的设计[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 乐天 编译;搜索引擎优化的9个技巧[N];计算机世界;2009年
2 EndTo;精确优化 实战论坛SEO[N];电脑报;2009年
3 英文;搜索结果存在互补性,用户需要雅虎谷歌[N];科技日报;2006年
4 记者 钱铮;日本开发下一代搜索引擎对抗谷歌[N];人民日报;2006年
5 胡斌;快速用好搜索引擎四妙计[N];中国计算机报;2005年
6 本报记者 冯卫东;下一代搜索引擎呼之欲出[N];科技日报;2009年
7 陶秋丰;万事俱备,只欠东风[N];电脑报;2007年
8 李海峰;“网络钓鱼”骗术升级[N];沈阳日报;2005年
9 刘静一;个人档案信息检索[N];建筑报;2000年
10 刘海英;快速搜索技术可提高检索速度20倍[N];科技日报;2009年
中国博士学位论文全文数据库 前10条
1 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
2 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
3 刘玉婷;网页排序中的随机模型及算法[D];北京交通大学;2009年
4 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
5 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
6 徐文贤;因特网矿业信息资源及其利用研究[D];中南大学;2001年
7 陈益峰;若干典型网格应用的容错及性能研究[D];武汉大学;2004年
8 周健;结构化对等网络中的关键技术研究[D];中国科学技术大学;2008年
9 左怀玉;非集中式空间服务管理与组合技术研究[D];国防科学技术大学;2008年
10 任祖杰;非合作性环境下的P2P搜索技术研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
2 胡小睿;基于Web挖掘的搜索引擎技术研究[D];武汉大学;2005年
3 贾爱军;面向创新设计的多层次Web信息检索研究[D];四川大学;2005年
4 肖坤;面向用户兴趣的校园网聚类搜索引擎的研究与实现[D];国防科学技术大学;2010年
5 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
6 张盛蕾;基于Java的浙江纺织服装学院校园网搜索引擎[D];电子科技大学;2010年
7 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
8 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年
9 李珏伶;搜索引擎网页相关性评估方法设计及其在rank模型上的应用[D];北京交通大学;2011年
10 陈晓平;WWW上搜索引擎返回结果的模糊聚类研究[D];河海大学;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026