收藏本站
《信息与电脑(理论版)》 2012年09期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

网页文本数据自动采集方法综述

王益强  赵静  
【摘要】:随着互联网的快速发展,网页中的文本数据越来越丰富,人们对互联网数据的自动获取的需求也变得越来越高。例如,各大网站最新新闻、股票信息、天气信息、交通信息、商品信息、博客和微博信息等等。但是,由于网页开发技术的发展,往往通过传统的直接下载网页的方法很难获得所需要的数据。需要针对不同网页的具体特点,设计相应的数据采集方法。本文首先从文本数据采集的角度,对网页类型进行了划分;然后基于这个划分,归纳和整理了相应的数据采集方法;最后对这些方法进行综合对比分析。
【作者单位】山西省电力公司检修公司;煤炭工业(太原)设计研究院;
【分类号】:TP393.092

【共引文献】
中国期刊全文数据库 前1条
1 刘鹏;黄诗诗;俞奕;;基于Ajax的数字地图构建方法研究[J];科技信息;2006年07期
中国博士学位论文全文数据库 前1条
1 李卫国;水稻生长模拟与决策支持系统的研究[D];南京农业大学;2005年
中国硕士学位论文全文数据库 前2条
1 陈书;智能跨平台网站导航技术研究[D];北京化工大学;2005年
2 金晓鸥;互联网舆情信息获取与分析研究[D];上海交通大学;2008年
【二级参考文献】
中国期刊全文数据库 前5条
1 彭建荣;罗永会;;搜索引擎的基本原理及发展趋势[J];电脑知识与技术;2006年02期
2 张蓉;数据聚类技术的研究[J];计算机工程与应用;2002年16期
3 宋晖,张岭,叶允明,马范援;基于标记树对象抽取技术的Hidden Web获取研究[J];计算机工程与应用;2002年23期
4 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
5 孙彬;王东;李娟;;基于XQuery的Deep Web搜索系统的设计与实现[J];科学技术与工程;2007年16期
中国博士学位论文全文数据库 前1条
1 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
中国硕士学位论文全文数据库 前6条
1 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
2 蒋科;基于领域概念定制的主题爬虫系统的设计与实现[D];西安电子科技大学;2007年
3 罗兵;支持AJAX的互联网搜索引擎爬虫设计与实现[D];浙江大学;2007年
4 杨海东;基于Ajax技术的异步搜索引擎研究与实现[D];南京信息工程大学;2007年
5 高岭;Deep Web分类搜索引擎关键技术研究[D];苏州大学;2007年
6 肖亮;垂直搜索引擎的研究与实现[D];北京交通大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 寿志勤;葛东侠;郭亚光;章洲;;大规模政府网站群评估数据采集方法试验研究[J];情报科学;2011年09期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前2条
1 沈永坚;张大方;黎文伟;;一种基于历史记录的网络流量数据采样方法的研究[A];第三届中国测试学术会议论文集[C];2004年
2 关卿;王宏;;基于信息熵的网络流量矩阵估算方法研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
中国博士学位论文全文数据库 前1条
1 王丰贵;因特网环境下分布式监测系统关键技术研究及应用[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 张南;系统链路数据采集技术研究[D];沈阳理工大学;2009年
2 蔺丽芳;校园网中异常流量分析中的数据采集技术研究[D];大连海事大学;2008年
3 金爽;基于NetFlow的实时安全事件检测技术研究[D];哈尔滨工程大学;2007年
4 刘合富;基于syslog技术的防火墙日志数据采集方法的研究[D];华中师范大学;2006年
5 李锋;大流量网络异常检测技术的研究与设计[D];山东大学;2008年
6 戚玉娥;基于网络流的流量异常检测研究[D];山东师范大学;2009年
7 赵刚;基于Web日志的网站可用性及用户行为可视化分析方法研究[D];山西大学;2007年
8 任国平;网络流量实时监测系统的设计与实现[D];国防科学技术大学;2008年
9 刘书;应急通信系统中操作系统及应用软件的数据采集技术研究[D];沈阳理工大学;2009年
10 李刚;网络拓扑发现及基于Visio显示技术的研究[D];长安大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026