收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于Python的Web信息获取方法研究

魏冬梅  何忠秀  唐建梅  
【摘要】:随着大数据和云计算等新一代互联网技术的迅速发展,Web信息量逐日海量递增。从海量数据中提取有效信息,挖掘有潜在价值的关系成为当前的研究热点,这对揭示已知规律、预测未知结果有极大的辅助作用。对当前Web信息获取方法、原理和关键技术进行研究分析,重点阐述了数据采集相关技术中网络爬虫算法的分类与应用。提出一种以Python和相关库为主要工具,结合模块化方法,构建Web文本信息获取系统框架与流程的策略。案例中通过定义采集函数,实现对给定的维基百科词条,快速搜索与该词条相关信息,对词条内链接和外链接进行有效爬取。结果表明,Python在数据采集方面具有较高的有效性和可扩展性。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 Tim Peters;;Python之禅(英文)[J];程序员;2007年10期
2 姚竞;;面向项目的“Python程序设计”教学实践与研究[J];福建电脑;2009年07期
3 透明;;关于Python[J];程序员;2002年03期
4 王宁,汪飞星;基于Python开发气象服务器运行系统界面[J];微机发展;2003年07期
5 汤韬;;Python库简介[J];程序员;2006年06期
6 郭芬;刘明;;Python垃圾收集器原理研究及应用[J];信息技术;2009年07期
7 王丽;;Python的元类编程研究[J];电脑编程技巧与维护;2011年06期
8 李爱宁;唐勇;孙晓辉;刘昕彤;;基于Python语言的3DES算法优化[J];计算机系统应用;2011年08期
9 曾浩;;Python在其它语言中的应用研究[J];大众科技;2012年07期
10 鞠文飞;曾智锐;;使用Python开发跨平台的单词助记程序[J];电脑编程技巧与维护;2012年24期
11 江岸;;基于Python的网络游戏脚本系统的设计与实现[J];电脑知识与技术;2013年09期
12 ;Python正在取代R成为数据科学界新宠[J];电脑编程技巧与维护;2014年01期
13 ;Guido van Rossum[J];程序员;2002年03期
14 罗霄,任勇,山秀明;基于Python的混合语言编程及其实现[J];计算机应用与软件;2004年12期
15 张志艳;刘万军;王艳娟;;基于Python的行为型模式设计[J];辽宁工程技术大学学报;2004年S1期
16 胡守超;;基于Python语言的音频捕获及频谱分析设计[J];电脑编程技巧与维护;2009年09期
17 胡守超;;基于Python语言的音频捕获及频谱分析程序设计[J];微型电脑应用;2009年04期
18 何惠英;付少波;安居;付兰芳;;用Python语言分析银行自助设备交易流水文件[J];现代电子技术;2010年05期
19 刘巧红;单贵;;Python语言整数运算实现机制分析与性能评估[J];计算机系统应用;2011年02期
20 张茗芳;;动态语言Python探讨与比较[J];企业科技与发展;2012年13期
中国重要会议论文全文数据库 前5条
1 伊鹏跃;于哲峰;汪海;;基于Abaqus/Python的三维复合材料层压板有限元建模参数化开发[A];第17届全国复合材料学术会议(复合材料结构设计与性能表征分论坛)论文集[C];2012年
2 黄佳聪;高俊峰;;基于Python编程语言的空间动态模型集成[A];自然地理学与生态安全学术论文摘要集[C];2012年
3 于文丽;;基于Python的空间自相关模式研究[A];中国地理学会百年庆典学术论文摘要集[C];2009年
4 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
中国硕士学位论文全文数据库 前10条
1 张正阳;基于Python的户外通讯设备连接关系的挖掘研究[D];苏州大学;2015年
2 赵强;用于PCB版图审查的Python脚本子系统设计与实现[D];西安电子科技大学;2014年
3 邝洪胜;基于Python的电商导购APP设计与实现[D];华南理工大学;2015年
4 代红震;基于STAF和Python混合编程的自动化测试系统的研究和实现[D];南京邮电大学;2015年
5 刘志凯;基于Web的Python编程环境研究[D];新疆农业大学;2015年
6 王蓓蓓;Python动态特性对软件维护的影响研究[D];南京大学;2016年
7 李清言;Pyreview:一个基于抽象语法树差异提取的Python源代码分析工具[D];南京大学;2016年
8 王朝阳;基于Python的图书信息系统的设计与实现[D];吉林大学;2016年
9 韦薇;基于Python与WinForm的书法课件系统的设计与实现[D];北京交通大学;2016年
10 郑可富;基于Python的虚拟仪器设计与开发[D];中央民族大学;2016年
中国重要报纸全文数据库 前1条
1 本报记者 蒙克;颠覆传统数据库的“玩具”[N];网络世界;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978