收藏本站
《西藏大学学报(自然科学版)》 2010年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于HTML Parser的网页信息提取技术研究

珠杰  罗潘  
【摘要】:在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。
【作者单位】西藏大学工学院;
【分类号】:TP393.092

【参考文献】
中国硕士学位论文全文数据库 前1条
1 程书红;基于XML的Web信息抽取设计与实现[D];重庆大学;2007年
【同被引文献】
中国期刊全文数据库 前2条
1 黄萱菁,夏迎炬,吴立德;基于向量空间模型的文本过滤系统[J];软件学报;2003年03期
2 沈虹,张学智;有限自动机的正则表达式的范式[J];西安工业学院学报;2001年03期
中国重要会议论文全文数据库 前1条
1 黄晓宏;连理;夏迎炬;徐国伟;;基于规则和非规则方法的WEB信息提取[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国硕士学位论文全文数据库 前2条
1 梅锋;网络攻防关键技术研究[D];北京邮电大学;2006年
2 李迪;Web安全与扫描技术[D];吉林大学;2007年
【二级参考文献】
中国期刊全文数据库 前2条
1 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
2 张树瑜,杜国宁,朱仲英;基于Web的半结构化信息抽取技术研究[J];系统工程与电子技术;2004年05期
中国硕士学位论文全文数据库 前3条
1 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
2 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年
3 李跃进;基于Internet的信息抽取技术研究[D];大连理工大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 林丽华;;用好SOSO的微博搜索功能[J];电脑迷;2011年16期
2 余光华;;网站优化对搜索引擎的影响[J];现代计算机(专业版);2011年12期
3 ;社交网络的未来[J];电脑迷;2011年11期
4 Panx;;搜索更随心,傲游3搜索功能自定义技巧[J];网络与信息;2011年07期
5 ;15条经典实用的网站优化技巧[J];计算机与网络;2010年17期
6 三好;;傲游多重搜索让你畅搜网络[J];电脑知识与技术(经验技巧);2011年08期
7 大江东去;;更换Chrome的Google默认搜索域名[J];电脑迷;2011年18期
8 杨望;;Web Spam技术的发展与防御[J];中国教育网络;2011年07期
9 曲俊华;朱海涛;赵波;;URL重写技术在动态网站优化中的应用研究[J];网络安全技术与应用;2011年09期
10 李卫东;陆玲;;融合VSM技术的PageRank算法研究与应用[J];计算机与现代化;2011年07期
中国重要会议论文全文数据库 前10条
1 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
3 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
4 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
5 张成岗;周奇;;智能化的网络信息搜索引擎——数据检索及分析系统(DRANS)[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
6 王继民;彭波;孟涛;;基于搜索引擎日志发现相近Web查询[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
7 王灿辉;张敏;马少平;;Web作弊与反作弊技术综述[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 吴丽辉;张凯;张刚;王斌;;个性化Web信息采集系统PSearch的设计[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 刘红军;杨红俊;;如何高效地利用互联网搜集情报资源[A];四川省电子学会情报专业委员会学术交流会论文集[C];2006年
10 张冠群;杜建清;杨家海;;基于搜索引擎的网站流量估算模型[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
中国重要报纸全文数据库 前10条
1 乐天 编译;搜索引擎优化的9个技巧[N];计算机世界;2009年
2 EndTo;精确优化 实战论坛SEO[N];电脑报;2009年
3 英文;搜索结果存在互补性,用户需要雅虎谷歌[N];科技日报;2006年
4 记者 钱铮;日本开发下一代搜索引擎对抗谷歌[N];人民日报;2006年
5 胡斌;快速用好搜索引擎四妙计[N];中国计算机报;2005年
6 本报记者 冯卫东;下一代搜索引擎呼之欲出[N];科技日报;2009年
7 陶秋丰;万事俱备,只欠东风[N];电脑报;2007年
8 李海峰;“网络钓鱼”骗术升级[N];沈阳日报;2005年
9 刘占军;“红蓝黄绿”任我搜[N];中国电脑教育报;2009年
10 刘文;搜索需要“量体裁衣”[N];科技日报;2006年
中国博士学位论文全文数据库 前10条
1 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
2 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
3 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
4 徐文贤;因特网矿业信息资源及其利用研究[D];中南大学;2001年
5 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
6 臧铖;个性化搜索中隐私保护的关键问题研究[D];浙江大学;2008年
7 刘玉婷;网页排序中的随机模型及算法[D];北京交通大学;2009年
8 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
9 江开忠;上下文感知的Web搜索关键技术研究[D];华东师范大学;2008年
10 张莹;基于语义的分布式服务与资源一体化发现方法研究[D];北京交通大学;2009年
中国硕士学位论文全文数据库 前10条
1 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
2 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
3 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年
4 李珏伶;搜索引擎网页相关性评估方法设计及其在rank模型上的应用[D];北京交通大学;2011年
5 肖坤;面向用户兴趣的校园网聚类搜索引擎的研究与实现[D];国防科学技术大学;2010年
6 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
7 刘妮娜;Web数据挖掘和个性化搜索引擎研究[D];浙江大学;2005年
8 黄刚;基于JXTA的搜索引擎系统研究[D];西南交通大学;2004年
9 苏国荣;校园网搜索引擎排序的去重方法研究[D];国防科学技术大学;2010年
10 袁宏;基于移动Agent的中文信息搜索引擎系统模型的研究[D];沈阳工业大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026