收藏本站
《长春理工大学学报(自然科学版)》 2015年02期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

全自动网页信息采集系统

徐春凤  王艳春  翟宏宇  
【摘要】:随着网络时代的快速发展,用户对搜索引擎、网页的内容和大数据处理等有了更多的要求。从海量的互联网信息中选取最符合要求的信息成为了新的热点。基于一个开源的、Java开发的、可扩展的Web爬虫项目—Heritrix,进行扩展抓取用户需要的网页,深入研究了信息采集技术。利用Heritrix的可扩展性,来实现用户的抓取。通过分析Heritrix的工作流程,模块划分以及源码设计,基于Heritrix扩展抽取面向商品信息的网页,配合Html Parser对网页内容进行解析,有效的提取商品关键信息后存入数据库以供检索。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 松涛;“吸”尽网络中有用的网页信息[J];电脑知识与技术;2004年13期
2 朱精南,赵明生;网页版面信息分析[J];计算机工程;2004年12期
3 梁邦勇,李涓子,王克宏;基于语义Web的网页推荐模型[J];清华大学学报(自然科学版);2004年09期
4 王海燕;张正凯;任建浩;;从审美角度浅谈网页艺术设计[J];中国电化教育;2004年09期
5 贾海龙,任玉珍;网页艺术设计[J];新乡师范高等专科学校学报;2005年05期
6 刘肖冰;浅谈网页艺术设计[J];安阳师范学院学报;2005年05期
7 孙迎春;;网页设计研究[J];南平师专学报;2005年03期
8 文涛;网页的视觉传达设计与分析[J];沈阳教育学院学报;2005年01期
9 宋春晖;网页设计中的美学应用分析[J];海南师范学院学报(自然科学版);2005年01期
10 张秀虎;;浅谈网页的访问权限[J];教育信息化;2005年17期
11 任国庆;;“计算机网页设计”课程体系分析及课程整合[J];计算机教育;2006年10期
12 孟涛;王继民;闫宏飞;;网页变化与增量搜集技术[J];软件学报;2006年05期
13 徐辉;李建军;;网页设计的“美”与“技术”[J];安徽电子信息职业技术学院学报;2006年06期
14 魏娜;;浅谈网页艺术设计[J];新课程研究(职业教育);2007年09期
15 巫满秀;;浅谈网页信息的保存技巧[J];福建电脑;2007年07期
16 吕英杰;叶强;李一军;;模糊综合评判理论在网页自动分类中的应用[J];计算机工程;2007年15期
17 范春萍;;浅谈网页中的艺术设计[J];世纪桥;2007年08期
18 杨丽丽;;色彩在网页设计中的协调与应用[J];中国科技信息;2007年23期
19 武明煜;魏静;;浅议网页艺术设计之构成要素[J];科技信息(学术研究);2007年31期
20 赵锋;;《计算机网页设计》课程分析[J];淮北职业技术学院学报;2007年03期
中国重要会议论文全文数据库 前10条
1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
中国重要报纸全文数据库 前10条
1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年
2 壮壮;批量保存网页信息[N];电脑报;2004年
3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年
4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年
6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年
7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年
8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年
9 八戒;眨眼之间 答案立现[N];电脑报;2013年
10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年
3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
7 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 高文梁;改进的基于历史信息分析的网页排序算法[D];大连理工大学;2009年
2 刘辉;网页信息过滤系统的研究与设计[D];苏州大学;2009年
3 赵胤;海量网页搜集系统的设计[D];东北大学 ;2009年
4 罗永莲;突发事件语料噪声排除与网页去重方法研究[D];山西大学;2005年
5 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
6 张超群;基于网页分块技术的主题爬行[D];吉林大学;2007年
7 张雅洁;网页视觉基础设计与应用研究[D];东北师范大学;2007年
8 黄文蓓;基于网页分割和摘要的小屏幕设备网页自适应技术研究与实现[D];华东师范大学;2008年
9 刘华晖;需求概念图导引下的网页检索结果分析[D];上海交通大学;2011年
10 程欢;网页中动态色彩及其情感可视化研究[D];哈尔滨工业大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978