收藏本站
《计算机工程与应用》 2004年16期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于标记树表示方法的页面结构分析

常育红  姜哲  朱小燕  
【摘要】:页面内容结构分析在WEB信息检索、分类和抽取等方面有重要作用。文章从页面布局和内容之间关系出发,根据WEB文件中标记之间关系,用标记树表示页面文件,采用自底向上的算法,抽取出具有不同语义的页面内容,提出用树形层次结构表示它们之间关系的方法。在此基础上,通过模仿人们浏览页面的习惯,成功地将其应用于页面的计算机屏读系统,实现自动朗读页面主题的功能。

【引证文献】
中国期刊全文数据库 前10条
1 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期
2 曹恒;张茜;;农作物信息垂直搜索引擎的研究[J];安徽农业科学;2012年19期
3 李蕾;王劲林;白鹤;胡晶晶;;基于FFT的网页正文提取算法研究与实现[J];计算机工程与应用;2007年30期
4 胡飞;;基于标记树的Web页面区域划分和搜索方法[J];计算机科学;2005年08期
5 张瑞雪;宋明秋;公衍磊;;逆序解析DOM树及网页正文信息提取[J];计算机科学;2011年04期
6 贡正仙;朱巧明;李培峰;;基于相似页面的Web信息抽取系统的实现[J];计算机应用;2006年08期
7 张聚弘;山岚;;基于页面对比分析的数据提取[J];计算机与数字工程;2006年01期
8 韩忠明;李文正;莫倩;;有效HTML文本信息抽取方法的研究[J];计算机应用研究;2008年12期
9 胡金柱;周星;舒江波;熊春秀;;基于启发式规则的网页主题信息精确定位方法[J];计算机应用研究;2010年02期
10 刘军;张净;;基于DOM的网页主题信息的抽取[J];计算机应用与软件;2010年05期
中国重要会议论文全文数据库 前1条
1 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
中国博士学位论文全文数据库 前1条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
2 付涛;藏文网页除噪技术研究[D];西北民族大学;2010年
3 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
4 董锐;基于区域定位的购物网站商品信息抽取方法[D];湖南大学;2009年
5 贡正仙;基于网格的Web信息抽取技术的研究与实现[D];苏州大学;2006年
6 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
7 王玉平;基于视觉特征的Web页面信息抽取算法[D];上海海事大学;2006年
8 徐冉;网页信息净化方法的研究与实现[D];哈尔滨工程大学;2007年
9 吴鹏飞;面向Web的多媒体信息提取及其教育应用[D];山东师范大学;2007年
10 刘常;语义信息自动生成研究[D];北京邮电大学;2007年
【同被引文献】
中国期刊全文数据库 前10条
1 郑伟;;浅谈企业竞争情报系统的建立[J];安徽冶金;2005年01期
2 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
3 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
4 祝华新;胡江春;孙文涛;;2007中国互联网舆情分析报告[J];今传媒;2008年02期
5 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
6 刘杰;束博;;一种高效的HTML/XHTML至WML的转换方法[J];北京工商大学学报(自然科学版);2006年06期
7 张利彪,周春光,刘小华,马铭;粒子群算法在求解优化问题中的应用[J];吉林大学学报(信息科学版);2005年04期
8 王俊清;;BP神经网络及其改进[J];重庆工学院学报(自然科学版);2007年03期
9 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
10 马瑞民;钱浩;;基于时间频率加权DOM的Web信息抽取方法[J];长江大学学报(自然科学版);2011年01期
中国重要会议论文全文数据库 前2条
1 徐芬;王挺;陈火旺;;基于SVM方法的中文实体关系抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 梅雪;程学旗;郭岩;张刚;丁国栋;;一种全自动生成网页信息抽取Wrapper的方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
3 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
4 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
5 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
6 刘德喜;基于基本要素的多文档自动文摘研究[D];武汉大学;2007年
7 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
8 孔芳;指代消解关键问题研究[D];苏州大学;2009年
9 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年
10 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 谭义红;关联规则挖掘及其在概念检索中的应用研究[D];湖南大学;2003年
2 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年
3 杨波;DOM解析器OnceDOMParser的设计与实现[D];中国科学院研究生院(软件研究所);2005年
4 曹红;林业主题搜索引擎研究[D];北京林业大学;2005年
5 赵辉;一种基于DOM的XML解析器的设计与实现[D];山西大学;2005年
6 鹿文鹏;面向web的多媒体语义信息提取方法研究与实现[D];山东师范大学;2005年
7 程传鹏;基于分类的智能信息检索研究与实现[D];云南师范大学;2005年
8 徐晓丹;中文Web文档自动摘要系统的研究[D];国防科学技术大学;2005年
9 卢健;潜在语义分析在文本信息检索中的应用研究[D];华中科技大学;2005年
10 贺智平;Web信息自动抽取技术研究[D];西安电子科技大学;2006年
【二级引证文献】
中国期刊全文数据库 前10条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
3 翟东升;杨洋;;基于XML技术的USPTO专利抽取系统[J];北京工业大学学报;2011年04期
4 冯少卿;都云程;;网页结构模板生成新方法研究[J];北京机械工业学院学报;2007年03期
5 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
6 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期
7 郎凤举;;HTMLParser提取网页超链接研究[J];电脑编程技巧与维护;2010年02期
8 陈蕾蕾;张如静;;面向Web的新闻网页正文信息抽取策略研究[J];电脑知识与技术;2008年S2期
9 邬海波;吴保国;;基于WebService的多源数据库数据访问方法[J];电脑知识与技术;2009年31期
10 刘茵;;利用网页结构特征建立用户模型[J];电脑知识与技术;2010年23期
中国重要会议论文全文数据库 前7条
1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
2 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
3 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
4 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
5 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 ;Information Extraction Algorithms and Its Application Based on Word Density in a Webpage[A];Proceedings of 2010 2nd International Conference on Intellectual Technology in Industrial Practice (ITIP2010) Volume 2[C];2010年
中国博士学位论文全文数据库 前9条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
2 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
3 刘竟;面向概念检索的农史信息门户的设计与构建[D];南京农业大学;2008年
4 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
5 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年
6 刘丹;大成组技术中的若干关键技术研究[D];浙江大学;2010年
7 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
8 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
9 张彦超;社交网络服务中信息传播模式与舆论演进过程研究[D];北京交通大学;2012年
中国硕士学位论文全文数据库 前10条
1 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
2 赵晓丽;基于语义分析的网页病毒检测研究[D];中国海洋大学;2010年
3 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
4 熊贵营;局域网MSN通信监控[D];华东师范大学;2010年
5 李元乾;基于移动搜索用户关联的信息检索研究[D];北京交通大学;2010年
6 汪涵;金融投资数据仓库中数据融合的设计与实现[D];电子科技大学;2010年
7 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
8 甄涛;基于社团发现的Blog信息收集原型系统的研究[D];解放军信息工程大学;2009年
9 刘欣;基于结构信息的中文网页自动分类技术研究[D];南京航空航天大学;2010年
10 韦吉文;供电企业门户单点登录及内容管理子系统的设计与实现[D];哈尔滨工业大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 于成龙;;中文网页信息抽取技术及分类算法研究[J];山东理工大学学报(自然科学版);2011年03期
2 魏晶晶;于然;廖祥文;;基于分隔符的中文论坛信息抽取[J];福建电脑;2011年06期
3 王全剑;李芳;;基于Wikipedia的人名简历信息抽取[J];计算机应用与软件;2011年07期
4 孙全红;张贞贞;;基于树结构的Web表格信息抽取方法[J];华北水利水电学院学报;2011年03期
5 钱程;阳小兰;;HTML到XML转换研究[J];计算机与现代化;2011年08期
6 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期
7 张敏;;信息抽取技术在网页中的应用[J];中国城市经济;2011年20期
8 梁吉光;田俊华;熊玲;;基于二阶HMM的信息抽取研究[J];情报杂志;2011年07期
9 冯曦曦;朱学芳;;基于Spring框架的农业网站信息资源采集器设计与实现[J];信息化研究;2011年03期
10 孙中友;李培峰;朱巧明;;事件信息抽取中的数据预处理方法研究[J];计算机应用与软件;2011年08期
中国重要会议论文全文数据库 前10条
1 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
2 付艳;杨冬青;唐世渭;王腾蛟;高军;;基于XPath的Web页面自动清洗算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 何昕;谢志鹏;;基于简单树匹配算法的Web页面结构相似性度量[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
7 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
9 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 ;中文Facebook将诞生?[N];电脑报;2006年
5 特约作者:Relen;分栏结构的排版[N];电脑报;2005年
6 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
7 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
8 董振东;到用户中去[N];中国计算机报;2003年
9 张友林 甘肃省武威市凉州区中医院;开发中医专用软件很有必要[N];中国中医药报;2009年
10 记者 刘昕;“商务培训网”好评如潮[N];公共商务信息导报;2006年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
3 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
4 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
5 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
6 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
7 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
8 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
9 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
10 何召卫;受限本体相似[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
2 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
3 董锐;基于区域定位的购物网站商品信息抽取方法[D];湖南大学;2009年
4 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
5 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
6 全福亮;面向精确Web信息抽取的自动数据记录分析和识别技术研究[D];南京大学;2011年
7 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
8 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年
9 安增文;垂直搜索中信息属性抽取和分类模型研究与实现[D];中国石油大学;2010年
10 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026