收藏本站
《科技信息》 2009年22期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

垂直搜索中网页抓取技术的研究

陈哲  
【摘要】:网页抓取是由一个称为网络爬虫的程序实现的,该程序是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上提取新的URL放入队列,直到满足系统的一定停止条件。
【作者单位】山东经贸职业学院;
【分类号】:TP391.3

免费申请
【引证文献】
中国期刊全文数据库 前1条
1 唐勇;;网络论坛爬虫的设计[J];电脑知识与技术;2012年03期
中国重要会议论文全文数据库 前1条
1 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
中国硕士学位论文全文数据库 前4条
1 赵志军;基于分布式的垂直搜索引擎的研究与实现[D];北京信息控制研究所;2011年
2 王小磊;生物医学专题信息跟踪与服务系统关键技术的研究与应用[D];中国人民解放军军事医学科学院;2011年
3 江海涛;基于运营商网络架构的不良信息监测系统研究与设计[D];北京邮电大学;2012年
4 斯鹏;网站内容安全管理平台的设计与实现[D];北京交通大学;2010年
【参考文献】
中国期刊全文数据库 前1条
1 王海波,姜吉发,耿晖,白硕,祝明发;XML搜索引擎研究[J];计算机应用研究;2001年04期
【共引文献】
中国期刊全文数据库 前10条
1 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
2 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
3 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
4 李绍英;;基于代理技术的比较购物研究[J];当代经理人;2006年10期
5 孙铁利;教巍巍;刘淑华;;Web-Based Information Extraction Technology[J];Journal of Donghua University(English Edition);2007年02期
6 李新叶;李新芳;;基于XML的供电企业分布式异构信息的检索[J];电力系统通信;2008年03期
7 张胜,胡解清;再谈搜索引擎[J];电脑学习;2001年06期
8 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
9 刘军;;基于支持向量机的网页主题信息提取算法[J];电脑知识与技术(学术交流);2007年02期
10 谭新良;蔡代纯;;基于XML文档的倒排索引研究[J];电脑知识与技术(学术交流);2007年05期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 何璐;李晋宏;;基于XML的大容量搜索引擎技术探讨[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
4 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
5 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
6 吴春胤;陈联诚;俞守华;;基于AgMES的搜索引擎的设计与实现[A];农业工程科技创新与建设现代农业——2005年中国农业工程学会学术年会论文集第三分册[C];2005年
7 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
8 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
3 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
4 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
5 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
6 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
7 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
8 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
9 向桂林;XML引擎研究[D];中国科学院研究生院(文献情报中心);2004年
10 郑桂华;基于网络的语文校本课程研究与实践[D];华东师范大学;2004年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
5 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
6 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年
7 黄亮;知识产权预警机制在服务外包平台中的应用研究[D];南昌大学;2010年
8 赛子龙;日志分析数据同步机制在区域微软技术中心营运平台中的应用研究[D];南昌大学;2010年
9 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年
10 杨奕锦;Web页面用户评论信息抽取技术研究[D];浙江大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 王富强;王青山;张立朝;朱浩群;王锐;;基于Lucene的数据库全文信息检索[J];测绘科学;2008年03期
2 赵洋;滕桂法;张玉新;何冬梅;;基于Internet的农业信息垂直搜索引擎的设计[J];河北农业大学学报;2009年06期
3 刘松业;;正则表达式的Web数据提取研究[J];电脑编程技巧与维护;2008年16期
4 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期
5 赵喜乐;陈光;;垂直搜索引擎的抓取系统——基于网络蜘蛛技术[J];电脑知识与技术;2009年19期
6 刘金亮;吴芳;孟海江;;智能化垂直搜索系统的构建[J];电脑知识与技术;2010年02期
7 刘磊安;符志强;;基于Lucene.net网络爬虫的设计与实现[J];电脑知识与技术;2010年08期
8 张丽敏;;垂直搜索引擎的主题爬虫策略[J];电脑知识与技术;2010年15期
9 王岩;;搜索引擎中网络爬虫技术的发展[J];电信快报;2008年10期
10 姜智峰;;城域承载网络关键技术需求与IPTV业务发展探讨[J];电信科学;2007年04期
中国硕士学位论文全文数据库 前8条
1 孙良;一种分布式智能信息检索系统的研究与实现[D];浙江大学;2002年
2 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
3 李广丽;垂直搜索引擎的研究与设计[D];华东交通大学;2008年
4 李建翔;基于垂直搜索引擎信息抽取技术的研究[D];哈尔滨工程大学;2009年
5 王耕;基于通用平台的TCP/IP协议还原技术研究[D];电子科技大学;2009年
6 黎斌;可扩展分布式垂直搜索引擎设计与实现研究[D];国防科学技术大学;2008年
7 徐海;基于Lucene垂直搜索引擎的研究与实现[D];西安科技大学;2009年
8 李云桃;基于Hadoop的海量数据处理系统的设计与实现[D];哈尔滨工业大学;2009年
【二级引证文献】
中国期刊全文数据库 前1条
1 金燕;王晓斌;;虚拟社区用户信息行为研究方法的三维框架[J];图书情报工作;2012年14期
【相似文献】
中国期刊全文数据库 前10条
1 郑力明;易平;;基于HTMLParser信息提取的网络爬虫设计[J];微计算机信息;2009年15期
2 陈丽君;;深层网网络爬虫设计[J];计算机与信息技术;2009年Z2期
3 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期
4 刘明辉;张志平;张新民;;网络资源聚合方法探析[J];机械管理开发;2008年05期
5 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期
6 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
7 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期
8 陈汶滨;夏学梅;;基于聚焦爬虫的手机天气预报系统[J];今日科苑;2009年02期
9 刘磊安;符志强;;基于Lucene.net网络爬虫的设计与实现[J];电脑知识与技术;2010年08期
10 张睿涵;林振荣;李建民;衷湾;;基于主题定制的专利网络爬虫的设计与实现[J];计算机与现代化;2011年07期
中国重要会议论文全文数据库 前10条
1 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
2 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
3 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
4 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
5 侯丹青;李舟军;邹蕴珂;;一种跨站脚本漏洞检测系统的设计与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
6 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
8 王勇;刘奕群;张敏;马少平;茹立云;;基于用户兴趣分析的网页生命周期建模(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 刘祥涛;龚才春;曾依灵;白硕;鲍旭华;;Kad网络节点共享资源探测分析[A];第五届全国信息检索学术会议论文集[C];2009年
中国重要报纸全文数据库 前9条
1 伍裕标;网络监控STOP![N];中国电脑教育报;2003年
2 王猛祥 徐明华;六度分隔:下一代网络交际[N];中国计算机报;2004年
3 Victor;电子邮件跟踪服务面世[N];人民邮电;2004年
4 商建刚;当你电子邮件地址被拍卖(上)[N];中国计算机报;2001年
5 记者 郭丽君;封堵涉黄网站3500个[N];光明日报;2010年
6 记者 邵素宏;中移动新型拨测系统“扫黄”显威力[N];人民邮电;2010年
7 马季;网络文学遭遇“版权困境”[N];人民日报海外版;2010年
8 记者 曹莉;泛华北(环渤海)工程信息共享平台功能升级[N];中国建设报;2011年
9 上海 陈曦;谷歌之后,谁来制衡百度?[N];电脑报;2010年
中国博士学位论文全文数据库 前2条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
2 黄晓鹏;基于网络爬虫技术的内容探测系统设计与实现[D];北京邮电大学;2010年
3 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
4 赵艳;基于网络爬虫的跨站脚本漏洞动态检测技术研究[D];西南交通大学;2011年
5 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年
6 张媚;Ajax友好的网络爬虫设计与实现[D];暨南大学;2011年
7 龚勇;搜索引擎中网络爬虫的研究[D];武汉理工大学;2010年
8 王佳;支持Ajax技术的主题网络爬虫系统研究与实现[D];北京交通大学;2011年
9 宋婷;基于SVM的网络爬虫检测研究与实现[D];天津大学;2010年
10 乔峰;基于模板化网络爬虫技术的Web网页信息抽取[D];电子科技大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026