收藏本站
《软件学报》 2006年05期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

网页变化与增量搜集技术

孟涛  王继民  闫宏飞  
【摘要】:互联网络中信息量的快速增长使得增量搜集技术成为网上信息获取的一种有效手段,它可以避免因重复搜集未曾变化的网页而带来的时间和资源上的浪费.网页变化规律的发现和利用是增量搜集技术的一个关键.它用来预测网页的下次变化时间甚至变化程度;在此基础上,增量搜集系统还需要考虑网页的变化频率、变化程度和重要性,选择一种最优的任务调度算法来决定不同网页的搜集频率和相对搜集次序.针对网页变化和增量搜集技术这一主题,对最近几年的研究成果作总结,并介绍最新的研究进展.首先论述对网页变化规律的建模、模型参数估计和估计效率等问题;然后介绍几个著名的增量搜集系统,着重分析它们的任务调度算法;最后,从理论上分析和总结增量搜集系统的最佳任务调度算法及其一个基于启发式策略的近似解,并预测其将来的研究趋势.该工作对增量搜集系统的设计和Web演化规律的研究具有参考意义.

手机知网App
【引证文献】
中国期刊全文数据库 前10条
1 吴永辉;王晓龙;丁宇新;徐军;郭鸿志;;基于主题的自适应、在线网络热点发现方法及新闻推荐系统[J];电子学报;2010年11期
2 刘辉林;孟莉;杨松波;王光兴;;专业搜索引擎数据更新的算法P~2FC[J];广西师范大学学报(自然科学版);2007年02期
3 郭涛;黄铭钧;;社区网络爬虫的设计与实现[J];智能计算机与应用;2012年04期
4 欧阳柳波;易显;李学勇;杨柱;;面向用户体验的大型网站网页分类更新策略[J];华中科技大学学报(自然科学版);2010年09期
5 柴军飞;;搜索引擎中的网络蜘蛛技术探析[J];今日科苑;2009年24期
6 徐文杰;陈庆奎;;增量更新并行W eb爬虫系统[J];计算机应用;2009年04期
7 孙彬;王东;李娟;;基于XQuery的Deep Web搜索系统的设计与实现[J];科学技术与工程;2007年16期
8 杜言琦;马军;;基于版块的论坛增量搜集策略[J];中文信息学报;2010年03期
9 王坛;;出版社书目数据集成系统的设计与实现[J];南阳师范学院学报;2010年12期
10 杨颂;欧阳柳波;;基于Heritrix的面向电子商务网站增量爬虫研究[J];软件导刊;2010年07期
中国重要会议论文全文数据库 前1条
1 杜言琦;马军;;基于版块的论坛增量搜集策略[A];第五届全国信息检索学术会议论文集[C];2009年
中国硕士学位论文全文数据库 前10条
1 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年
2 杨华;网络信息动态采集策略的研究及应用[D];河北科技大学;2011年
3 李莎莎;增量式Web信息采集与信息提取系统的研究与实现[D];武汉理工大学;2011年
4 杨方蓉;Web信息内容变化检测技术研究与实现[D];西南交通大学;2011年
5 高洁璇;Web管理信息系统性能优化研究[D];华中科技大学;2011年
6 杨颂;面向电子商务网站的增量爬虫设计与实现[D];湖南大学;2010年
7 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
8 刘琳;校园网搜索引擎系统的设计与实现[D];山东大学;2007年
9 乔良;基于马尔科夫模型的用户浏览路径预测研究[D];燕山大学;2007年
10 魏霞;面向网络教育的学习评价依据采集系统的研究与实现[D];浙江工业大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
2 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
3 吴永辉;王晓龙;丁宇新;徐军;郭鸿志;;基于主题的自适应、在线网络热点发现方法及新闻推荐系统[J];电子学报;2010年11期
4 徐小龙;王汝传;;基于智能Agent的多维权值信息检索模型[J];电子与信息学报;2008年02期
5 许笑;张伟哲;张宏莉;方滨兴;;广域网分布式爬虫中的Agent协同与Web划分研究[J];高技术通讯;2010年03期
6 黄皓凌;张凡;;6搜-高效的专用IPv6搜索引擎[J];电子设计工程;2011年23期
7 刘彤彤;伍小芹;;融入权威性与相关性的PageRank算法[J];信息技术;2008年11期
8 郭来德;刘辉林;刘兰哲;王光兴;;农业信息搜索引擎设计与实现[J];河北工程大学学报(自然科学版);2007年03期
9 钱功伟;倪林;曹荣;;基于网页链接和内容分析的改进PageRank算法[J];计算机工程与应用;2007年21期
10 李盛韬;余智华;程学旗;白硕;;Web信息采集研究进展[J];计算机科学;2003年02期
中国重要会议论文全文数据库 前5条
1 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
2 吴丽辉;张凯;张刚;王斌;;天罗Web信息采集系统中的性能优化[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 刘莉;肖诗斌;王涛;施水才;;基于RSS的分布式博客搜索引擎设计[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 刘宝良;李建中;;crlib:可交互异构Crawler框架的设计与实现[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国硕士学位论文全文数据库 前10条
1 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
2 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
3 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
4 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
5 戚学磊;基于Lucene的站内搜索引擎技术的研究与应用[D];太原理工大学;2011年
6 李恒训;网络论坛采集及热点话题发现研究[D];首都师范大学;2011年
7 庞美严;智能车辆监控数据处理系统的设计与实现[D];河北科技大学;2011年
8 杨华;网络信息动态采集策略的研究及应用[D];河北科技大学;2011年
9 李莎莎;增量式Web信息采集与信息提取系统的研究与实现[D];武汉理工大学;2011年
10 孙文婷;基于语义的网上股评信息的提取研究[D];武汉理工大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 李晓明;对中国曾有过静态网页数的一种估计[J];北京大学学报(自然科学版);2003年03期
3 朱华;浅谈网络信息资源采集技术[J];国家图书馆学刊;2004年02期
4 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
5 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
6 王曼莉;王晶;范晓晖;;电子邮件推送业务的研究与设计[J];北京工商大学学报(自然科学版);2008年06期
7 张利彪,周春光,刘小华,马铭;粒子群算法在求解优化问题中的应用[J];吉林大学学报(信息科学版);2005年04期
8 屠跃民;李婉月;;关于数字档案信息采集的思考[J];档案与建设;2006年09期
9 王红梅,朱洪秀,王凌;对中文搜索引擎未来发展的探讨[J];东北电力学院学报;2001年04期
10 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
中国重要会议论文全文数据库 前1条
1 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国硕士学位论文全文数据库 前10条
1 王命洪;网络教育中的学生学习评价[D];西南师范大学;2002年
2 周振;WWW缓存技术的研究与实现[D];大连海事大学;2004年
3 陈鑫;中文智能搜索引擎[D];四川大学;2004年
4 陈伟雄;基于元搜索的中文搜索引擎研究与实现[D];清华大学;2004年
5 王军;中文搜索引擎的设计与实现[D];华中科技大学;2004年
6 王丽平;缓存技术在管理信息系统中的应用研究[D];天津大学;2004年
7 周舫;汉语句子相似度计算方法及其应用的研究[D];河南大学;2005年
8 胡春红;基于电子学档的网络学习评价系统的设计与实现[D];华中师范大学;2006年
9 吴芬芬;信息抽取算法研究[D];吉林大学;2006年
10 万小容;基于主题信息采集中网页分类系统研究[D];昆明理工大学;2006年
【二级引证文献】
中国期刊全文数据库 前10条
1 郎凤举;;HTMLParser提取网页超链接研究[J];电脑编程技巧与维护;2010年02期
2 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
3 周巍巍;;网络爬虫网页库智能更新策略分析与研究[J];电脑知识与技术;2010年31期
4 黄轩;;辛亥革命史主题爬虫的设计与实现[J];电脑知识与技术;2011年13期
5 王立才;孟祥武;张玉洁;;移动网络服务中基于认知心理学的用户偏好提取方法[J];电子学报;2011年11期
6 李强;;Deep-Web搜索引擎实现技术研究[J];甘肃科技;2012年03期
7 刘炜;陈俊杰;;元搜索引擎中的推理技术[J];广西师范大学学报(自然科学版);2007年04期
8 张引;张斌;高克宁;郭朋伟;孙达明;;面向自主意识的标签个性化推荐方法研究[J];电子学报;2012年12期
9 黄世平;黄晋;陈健;汤庸;;自动建立信任的防攻击推荐算法研究[J];电子学报;2013年02期
10 辛玉玲;;搜索引擎相关技术研究概述[J];舰船电子工程;2008年10期
中国重要会议论文全文数据库 前3条
1 彭楠赟;王厚峰;凌晨添;;基于层次聚类的网络新闻热点发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
3 陈诚;李光亚;童庆;;增量爬取技术的策略框架设计[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
中国硕士学位论文全文数据库 前10条
1 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
2 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
3 卢革超;基于本体的主题搜索引擎技术研究[D];吉林大学;2011年
4 李莎莎;增量式Web信息采集与信息提取系统的研究与实现[D];武汉理工大学;2011年
5 管翠花;支持Ajax技术的Deep Web网络爬虫模型研究[D];大连海事大学;2011年
6 姚群;网络学习交互行为评价指标体系研究[D];西南大学;2011年
7 张锐;面向电子商务的深层网入口挖掘研究[D];杭州电子科技大学;2011年
8 刘欢;职位匹配系统的设计与实现[D];华东师范大学;2011年
9 张智;基于本体的Deep Web数据源的分类研究[D];南京信息工程大学;2011年
10 马丽;融入语义相似度的HITS算法研究及实现[D];南京理工大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 周双娥,熊兵周,袁由光;分布式系统中的一种动态负载分配策略及实现[J];舰船电子工程;2003年04期
2 李凡,卢社阶,邱鹏,林爱武;在嵌入式应用中增强Linux实时性的方法研究[J];华中科技大学学报(自然科学版);2005年02期
3 陈建;杨秀芝;;一种传输流复用器的软件实现方法[J];中国有线电视;2006年16期
4 张洁;方海松;程扬;;光纤制造中复绕单元加工次序调度策略的研究[J];中国机械工程;2006年20期
5 王洁;高嵩;;基于TrueTime的网络控制系统性能分析[J];电脑开发与应用;2006年12期
6 陈华平;古春生;;随机柔性Flow shop加权完成时间调度问题的启发式策略性能分析[J];控制理论与应用;2006年04期
7 冯俊涛;;某相控阵预警雷达实时任务调度策略的设计[J];雷达与对抗;2007年01期
8 王晓峰;谷寒雨;;一种改进的半导体生产线批处理机调度策略研究[J];计算机集成制造系统;2007年06期
9 邓海生;李军怀;刘红英;;基于ASP.NET的Web服务性能优化[J];计算机技术与发展;2007年10期
10 陈磊松;;高速网络中数据流处理系统的适应性机制[J];计算机工程;2007年22期
中国重要会议论文全文数据库 前10条
1 曹岩;郭颜军;赵汝嘉;林廷圻;;基于MAS的生产过程动态调度与控制[A];制造业与未来中国——2002年中国机械工程学会年会论文集[C];2002年
2 石锦惠;徐立鸿;吴启迪;;半导体生产线上的调度问题研究[A];1998年中国智能自动化学术会议论文集(下册)[C];1998年
3 张大鹏;王福利;杨英华;;加热炉的分散式换向控制[A];2005中国控制与决策学术年会论文集(下)[C];2005年
4 霍金健;袁崇义;屈婉玲;;基于Petri网的工作流仿真原理及实现[A];系统仿真技术及其应用(第7卷)——'2005系统仿真技术及其应用学术交流会论文选编[C];2005年
5 赵旭;夏靖波;王哲;;Linux内核进程调度的研究与改进[A];第三届全国嵌入式技术和信息处理联合学术会议论文集[C];2009年
6 孙广中;肖锋;熊曦;;MapReduce模型的调度及容错机制研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
7 侯艳君;李言;李淑娟;;模具企业生产调度管理系统的研究[A];制造技术自动化学术会议论文集[C];2004年
8 刘雁飞;梁正友;;网格工作流研究问题与现状[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(下册)[C];2008年
9 张宿新;;基于移动Agent的网络管理的关键技术探讨[A];第四届安徽科技论坛安徽省电机工程学会分论坛论文集[C];2006年
10 范敏;胡伟;;基于改进遗传算法的异构环境混合调度策略研究[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
中国重要报纸全文数据库 前10条
1 通讯员 陈力玮;广西电网以煤定电制定调度策略[N];中国电力报;2008年
2 ;Linux平台“多路径”技术应用[N];中国计算机报;2005年
3 戈;国华集群负载优化系统具备八项功能[N];电脑商报;2007年
4 吕宏伟孙志刚 廖宗来;京闽“军包”坐上“绿色特快”[N];中国邮政报;2007年
5 ;HP WebQoS软件[N];计算机世界;2002年
6 陈飞雪;1+1大于2[N];中国计算机报;2004年
7 肖文鹏;走进嵌入式Linux的世界[N];中国计算机报;2005年
8 张驰;国华科技以核心技术主导IT产业升级[N];中国高新技术产业导报;2007年
9 晓伟;交换机让管理当家[N];计算机世界;2006年
10 武英;国华科技站在负载均衡市场世界前列[N];科技日报;2007年
中国博士学位论文全文数据库 前10条
1 曾碧卿;分布式计算中并行I/O调度策略研究[D];中南大学;2005年
2 余平;无线数据广播调度与索引技术研究[D];复旦大学;2008年
3 冯健;P2P点播流媒体服务质量研究[D];西北大学;2008年
4 张海旸;视频网格资源组织与调度方法的研究[D];北京邮电大学;2008年
5 张晔;基于模块的调度策略及其对多处理器系统的支持[D];中国科学技术大学;2009年
6 张宁;嵌入式内存管理垃圾搜集器实时算法研究[D];电子科技大学;2009年
7 周辉;无线网络的公平性资源调度研究[D];清华大学;2011年
8 杨波;流媒体系统的关键技术研究[D];北京邮电大学;2006年
9 王艳;网络控制系统的控制与调度研究[D];南京理工大学;2006年
10 周时莹;CAN网络控制系统的智能调度研究[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 陈玉柱;网络控制时滞系统的建模与稳定性分析[D];天津大学;2004年
2 陈宣;Kylin中虚拟服务器系统研究与实现[D];国防科学技术大学;2005年
3 马德新;嵌入式操作系统μC/OS-Ⅱ的实时性研究[D];山东大学;2006年
4 刘义亮;基于元搜索调度算法的领域搜索模型研究[D];大连理工大学;2008年
5 张皓;网络处理中I~3O缓冲调度模型研究与实现[D];国防科学技术大学;2008年
6 张卓;基于移动Agent的信息检索系统中调度策略的研究[D];西安电子科技大学;2008年
7 邹晖华;自动化立体仓库的调度策略研究及仿真[D];武汉理工大学;2009年
8 段炼;基于分布式实时数据库的事务调度策略研究与改进[D];华中科技大学;2011年
9 田威;气动自动货架系统的研究与开发[D];南京理工大学;2003年
10 史丹;基于双调度策略的动态任务分配与调度算法研究[D];长春理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026