收藏本站
《安徽科技学院学报》 2010年06期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

自动提取布局结构相似网页的结构化信息

赵靖  王侨文  管马周  单传佳  
【摘要】:数据库驱动的Web站点根据查询产生的Web页结构布局都是极其相似的;现有的Web提取方法忽视或者忽略了这种相似性,因而在提取效率性能和通用性上都有较大的限制。本文提出一种基于标签树相似度的模板自动学习方法;进而根据模板来提取这类网页的数据;并利用Eclipse和开源HTML Parser对算法进行了实现;实验结果表明该算法具有较快的提取速度和较好的准确率。

【参考文献】
中国期刊全文数据库 前1条
1 李石君;于俊清;欧伟杰;;基于HTML模式代数的Web信息提取方法[J];计算机研究与发展;2006年09期
【共引文献】
中国博士学位论文全文数据库 前1条
1 董一鸿;动态数据库增量式挖掘算法及其应用的研究[D];浙江大学;2007年
【二级参考文献】
中国期刊全文数据库 前1条
1 吕建华,王国仁,于戈;XML数据的路径表达式查询优化技术[J];软件学报;2003年09期
【相似文献】
中国期刊全文数据库 前1条
1 申德荣;刘丽楠;寇月;聂铁铮;于戈;;一种面向Deep Web数据源的重复记录识别模型[J];电子学报;2010年02期
中国硕士学位论文全文数据库 前2条
1 刘丽楠;Deep Web数据源下重复记录识别模型的研究[D];东北大学;2009年
2 张旭;面向Deep Web响应页面的模式识别的研究[D];东北大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026