收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种全自动生成网页信息抽取Wrapper的方法

梅雪  程学旗  郭岩  张刚  丁国栋  
【摘要】:Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 木合亚提·尼亚孜别克;古力沙吾利;;哈萨克文信息处理的现状和发展方向[J];中文信息学报;2010年04期
2 周程远;朱敏;杨云;;基于词典的中文分词算法研究[J];计算机与数字工程;2009年03期
3 罗杰;陈力;夏德麟;王凯;;基于新的关键词提取方法的快速文本分类系统[J];计算机应用研究;2006年04期
4 朱晓旭;李培峰;朱巧明;刁红军;;一个适用于手持设备的多层汉字输入法模型[J];中文信息学报;2006年06期
5 扎西加;珠杰;;面向信息处理的藏文分词规范研究[J];中文信息学报;2009年04期
6 干俊伟,黄德根;汉语介词短语的自动识别[J];中文信息学报;2005年04期
7 刘云峰,齐欢,Xiang’en Hu,Zhiqiang Cai;潜在语义分析权重计算的改进[J];中文信息学报;2005年06期
8 赵海;揭春雨;;基于有效子串标注的中文分词[J];中文信息学报;2007年05期
9 贾宁;张全;;基于句间关系的汉语语义块省略恢复[J];中文信息学报;2008年06期
10 黄娴;张克亮;;汉语零形回指研究综述[J];中文信息学报;2009年04期
11 马旭;徐蔚然;郭军;胡日勒;;SMS-2008标注中文短信息库[J];中文信息学报;2009年04期
12 李双红;李茹;钟立军;郭伟昱;;基于多词块的框架元素语义核心词自动识别研究[J];中文信息学报;2010年01期
13 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[J];中文信息学报;2010年01期
14 关白;;信息处理用藏文分词单位研究[J];中文信息学报;2010年03期
15 陈磊;刘奕群;茹立云;马少平;;基于用户日志挖掘的搜索引擎广告效果分析[J];中文信息学报;2008年06期
16 陈海强;程学旗;刘悦;;基于用户兴趣的寻找虚拟社区核心成员的方法[J];中文信息学报;2009年02期
17 李斌;陈小荷;方芳;徐艳华;;基于语料库的高频最大交集型歧义字段考察[J];中文信息学报;2006年01期
18 何婷婷;朱薏;张勇;任函;;基于词语属性的计算机辅助获取流行词语研究[J];中文信息学报;2006年06期
19 魏思;刘庆升;胡郁;王仁华;;普通话水平测试电子化系统[J];中文信息学报;2006年06期
20 董宏辉;陶建华;徐波;;基于约束模型的韵律短语预测[J];中文信息学报;2007年01期
中国重要会议论文全文数据库 前10条
1 宋兰;孙茂松;;中文文本全文查重的实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 刘汇丹;芮建武;吴健;;藏文网页的编码识别与转换[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 徐印才;任立群;段元慧;任俊泉;;输血科智能管理系统的开发与应用[A];第四届全国临床检验学术会议论文汇编[C];2006年
4 陈皓;郑利平;刘晓平;;模板在虚拟现实平台中的应用[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
5 唐西隆;;用ToolBook制作多媒体课件的技巧[A];第十五届全国图学教育研讨会暨第七届工程制图CAI课件演示交流会论文集[C];2006年
6 满正行;李应兴;单广荣;于洪志;;网络应用中实现藏文支持的一种方案[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 赵晓波;;基于即时通信的客户服务系统[A];2007年中国通信学会“移动增值业务与应用”学术年会论文集[C];2007年
8 唐永明;王小捷;文娟;;基于关联词的复句语言模型[A];第三届中国智能计算大会论文集[C];2009年
9 朱新河;严新平;萧汉梁;;计算机辅助油液监测数据处理系统[A];第二届全国青年摩擦学学术会议论文专辑[C];1993年
10 彭朝林;;急诊分诊处的计算机应用[A];全国护理临床研究学术交流暨专题讲座会议论文会编[C];2001年
中国博士学位论文全文数据库 前9条
1 李苏红;基于实体模型的工程图样数字化设计的研究[D];吉林大学;2007年
2 刘杰;泄漏发射的信息重建与防御对策[D];浙江大学;2004年
3 Memon Abdul Ghafoor;[D];浙江大学;2006年
4 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
5 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
6 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
7 梁添才;基于认知机理的汉字智能造字研究[D];华南理工大学;2008年
8 卢建平;基于拓扑学和统计学的无字库汉字智能造字研究[D];华南理工大学;2010年
9 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
2 党兰学;汉字语法语义智能输入法总体设计与部分实现[D];河南大学;2006年
3 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
4 曹林峰;中文文字差错率统计软件的实现[D];西安电子科技大学;2007年
5 张玉华;基于码本的输入法评测系统的设计和实现[D];苏州大学;2005年
6 杜莹;汉字语法语义智能输入法核心算法及实现技术[D];河南大学;2006年
7 徐瑞;一个中文语义语料库的研究与建设[D];苏州大学;2006年
8 沈威;基于渡越矩阵与语境计算模型的复句关系词的自动标注[D];华中师范大学;2007年
9 罗丽俊;中文信息处理中若干技术的研究与实现[D];辽宁科技大学;2008年
10 毋琳;特定领域问答系统中通用语义理解框架的设计与实现[D];河南大学;2007年
中国重要报纸全文数据库 前10条
1 记者 梁捷;我国中文信息处理技术从实验室走向全面应用[N];光明日报;2009年
2 姚双云 华中师范大学语言与语言教育研究中心;虚词知识库:中文信息处理的基石[N];中国社会科学报;2011年
3 张波 龙雨;中文信息处理国际学术会议在武汉大学召开[N];中国社会科学院院报;2007年
4 记者 韩晓玲通讯员 张波 龙雨;海内外专家聚焦中文信息处理[N];湖北日报;2007年
5 胡唯元;文字编码新标准:不再为“名”所累[N];科技日报;2006年
6 撰文 西南证券;计算机应用服务业,随大势而动[N];上海金融报;2008年
7 许伟;金友兵 破局国外办公套件垄断[N];中国企业报;2008年
8 ;浙江天宇信息技术有限公司[N];中国计算机报;2009年
9 兰文科;浅析计算机应用系统平台建设[N];中国国门时报;2007年
10 王伟 潘丽;构建数字海事[N];计算机世界;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978