收藏本站
《华南理工大学学报(自然科学版)》 2004年S1期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于可视布局信息的网页噪音去除算法

荆涛  左万利  
【摘要】:主要探讨了网页中的噪音去除问题.针对单一页面中包含的丰富的可视信息,提出了一个更加精确的噪音去除算法:首先获得页面中各元素标记的布局信息,然后利用布局信息对页面进行划分,最后在此基础上去除噪音.与采用"布局信息"的算法相比,本文提出的算法对页面布局信息的提取更加准确,并能处理动态HTML页面.实验结果表明,该算法优于同类算法,可有效地去除网页噪音.

【引证文献】
中国期刊全文数据库 前10条
1 刘晨曦;吴扬扬;;一种基于块分析的网页去噪音方法[J];广西师范大学学报(自然科学版);2007年02期
2 吴麒;陈兴蜀;谭骏;;基于权值优化的网页正文内容提取算法[J];华南理工大学学报(自然科学版);2011年04期
3 毛先领;何靖;闫宏飞;;网页去噪:研究综述[J];计算机研究与发展;2010年12期
4 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[J];计算机工程;2007年19期
5 张校慧;徐彬;陈国强;陈珊;;民航主题Hidden-Web爬虫的设计与实现[J];计算机应用与软件;2008年07期
6 阚言东;倪茂树;刘国庆;;一种基于粗糙集的Web文本分类方法[J];计算机应用与软件;2009年08期
7 梁建飞;吐尔根·依布拉音;田生伟;赛依旦·阿不力米提;;汉维主题网页自动获取技术的研究[J];计算机应用与软件;2012年01期
8 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
9 付涛;;基于DOM和显示属性的网页信息除噪技术研究[J];商丘师范学院学报;2010年09期
10 徐薇;;Web信息采集中页面分块技术的研究[J];武汉科技学院学报;2007年05期
中国重要会议论文全文数据库 前3条
1 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
2 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
3 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前4条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
3 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
4 刘丹;大成组技术中的若干关键技术研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
2 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
3 吕楠;话题追踪与演化分析技术研究[D];解放军信息工程大学;2009年
4 梁建飞;网络环境下获取汉维篇章级平行语料的研究[D];新疆大学;2011年
5 许庚寅;基于粗糙集的Web文本分类技术研究[D];电子科技大学;2011年
6 张丽娟;基于Lucene的面向主题爬行搜索引擎的应用研究[D];安徽理工大学;2011年
7 张立岩;基于网页结构的Web信息提取系统的设计与实现[D];吉林大学;2011年
8 秦超;网页噪声识别与消除方法研究[D];山东科技大学;2011年
9 王昭华;基于链接分析的Blog网页排序算法的研究[D];东北大学;2009年
10 施玮;长兴县公安局情报分析对比平台的设计与实现[D];电子科技大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 吕树进;利用MSHTML组件从网页上提取数据[J];保定师范专科学校学报;2004年04期
2 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
3 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
4 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
5 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
6 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
7 张旭,宁汝新;产品功能信息模型研究[J];北京理工大学学报;1998年03期
8 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
9 李守丽,廖乐健,曹元大,曹树贵;Ontology Learning for Chinese Documents Based on SVD and Conceptual Clustering[J];Journal of Beijing Institute of Technology(English Edition);2003年S1期
10 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
中国重要会议论文全文数据库 前2条
1 张霄军;;Web汉英平行新闻语料获取的困难及对策[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
2 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 操云甫;基于Internet/Intranet的资源共享模型及技术研究[D];中国科学院研究生院(软件研究所);2002年
2 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
3 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
4 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
5 刘德喜;基于基本要素的多文档自动文摘研究[D];武汉大学;2007年
6 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
7 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
8 叶作亮;基于制造网格的制造资源管理若干关键技术研究[D];浙江大学;2006年
9 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
10 车海燕;面向中文自然语言Web文档的自动知识抽取和知识融合[D];吉林大学;2008年
中国硕士学位论文全文数据库 前10条
1 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
2 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
3 董树明;半结构化Web信息抽取技术及其应用研究[D];东南大学;2004年
4 薛惠忠;WEB信息的抽取与集成[D];东南大学;2004年
5 杨波;DOM解析器OnceDOMParser的设计与实现[D];中国科学院研究生院(软件研究所);2005年
6 荆涛;基于后缀数组的Web用户访问模式高效挖掘算法[D];吉林大学;2005年
7 赵辉;一种基于DOM的XML解析器的设计与实现[D];山西大学;2005年
8 郦金花;基于XML的MARC发布系统的设计与实现[D];苏州大学;2005年
9 贺智平;Web信息自动抽取技术研究[D];西安电子科技大学;2006年
10 陈建;领域本体的创建和应用研究[D];对外经济贸易大学;2006年
【二级引证文献】
中国期刊全文数据库 前10条
1 宋健豪;赵刚;;基于启发式规则优化的网页元素提取方法[J];信息安全与技术;2012年06期
2 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
4 翟东升;杨洋;;基于XML技术的USPTO专利抽取系统[J];北京工业大学学报;2011年04期
5 冯少卿;都云程;;网页结构模板生成新方法研究[J];北京机械工业学院学报;2007年03期
6 郭淼霞;;中文网页分类研究综述[J];赤峰学院学报(自然科学版);2011年12期
7 李园伟;;面向高校主题搜索引擎的的爬行器设计[J];电脑知识与技术;2011年16期
8 宋鳌;支琤;周军;罗传飞;安然;;基于LCS的特征树最大相似性匹配网页去噪算法[J];电视技术;2011年13期
9 李剑;;基于DOM和神经网络的网页净化应用[J];电子科技;2012年01期
10 张志强;;基于分块频繁集抽取的Web文本关联分类[J];福建电脑;2011年11期
中国重要会议论文全文数据库 前3条
1 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
2 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
3 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前8条
1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
2 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
3 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
5 刘丹;大成组技术中的若干关键技术研究[D];浙江大学;2010年
6 王萍;网络环境下的领域知识挖掘[D];华东师范大学;2010年
7 张彦超;社交网络服务中信息传播模式与舆论演进过程研究[D];北京交通大学;2012年
8 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
2 杜广飞;Web应用移动化适配服务中间件的研究与实现[D];郑州大学;2010年
3 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
4 熊贵营;局域网MSN通信监控[D];华东师范大学;2010年
5 李元乾;基于移动搜索用户关联的信息检索研究[D];北京交通大学;2010年
6 张天红;网络钓鱼预警系统设计与分析[D];电子科技大学;2010年
7 汪涵;金融投资数据仓库中数据融合的设计与实现[D];电子科技大学;2010年
8 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
9 甄涛;基于社团发现的Blog信息收集原型系统的研究[D];解放军信息工程大学;2009年
10 刘继勇;网络舆情预警辅助决策支持系统模型及关键技术研究[D];石家庄经济学院;2010年
【相似文献】
中国期刊全文数据库 前10条
1 杨蓉;;浅谈网站设计与制作[J];黑龙江科技信息;2007年01期
2 7star;隐藏在网页后的精彩[J];电脑知识与技术;2003年18期
3 袁玉苹;如何指导学生“网站创建”课程设计[J];陶瓷研究与职业教育;2004年02期
4 杨威;FrontPage98在企业Intranet中的应用(六)[J];通信世界;1998年10期
5 卢峰;Frontpage 98的网页编辑[J];电脑技术;1999年03期
6 ;Web Painter 3.0功能完整的网页绘图及动画处理软件[J];电子出版;1999年01期
7 李宗宏;如何利用FrontPage Express制作主页[J];计算机时代;1999年11期
8 ;网上先生——教您上网(四) 上网第四站[J];市场与电脑;1999年07期
9 ;站点扫描[J];计算机周刊;1999年17期
10 云起;信息人——你有网页吗[J];计算机周刊;1999年22期
中国重要会议论文全文数据库 前10条
1 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 白清源;林锦贤;谢丽聪;;信息自动获取系统的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 江志纲;丁增喜;刘洋;王大玲;鲍玉斌;于戈;;基于面向属性规约方法的网页和超链的分类[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
5 孔辉;梁洪亮;辛阳;杨义先;陈林顺;;一种高性能的网页篡改检测与恢复机制[A];2010年全国通信安全学术会议论文集[C];2010年
6 刘晖;赵萍;;新疆环境气象中心网站的总体规划及建设[A];信息技术在气象领域的开发应用论文集(一)[C];2005年
7 李立宗;高铁杠;陈蓉;陈超;;基于混沌系统的web信息隐藏研究与实现[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
8 王玉龙;叶新铭;李秀华;;网页优化策略的模糊C均值(FCM)聚类算法研究(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 朱建国;孙钟德;刘婷;;地市级网络管理监控初探[A];“推进气象科技创新,提高防灾减灾和应对气候变化能力”——江苏省气象学会第七届学术交流会论文集[C];2011年
10 郑传新;谢筱惠;;基于网页技术的决策气象服务信息系统[A];2002年广西气象电子专业技术交流会论文集[C];2002年
中国重要报纸全文数据库 前10条
1 任悦采写 本报记者 方妍;照片买家说,网页繁复不招喜欢[N];中国摄影报;2009年
2 鸣涧;走近3D梦幻网页(3)[N];中国电脑教育报;2002年
3 湖南 Ringfo;防止你的网页被“偷拍”[N];电脑报;2002年
4 路人甲;在网页上圈圈点点[N];电脑报;2004年
5 湖南 郭荣辉;网页图片保存四法[N];电子报;2005年
6 鸣涧;初次握手3D网页[N];中国电脑教育报;2002年
7 李芳香;和网页垃圾说再见[N];中国电脑教育报;2002年
8 马淑芬 记者 吴岳福;宝清 率先启动“村村通网页”工程[N];黑龙江日报;2010年
9 鸣涧;网页的编辑[N];中国电脑教育报;2002年
10 辽宁 张策;滚动的字幕 滚动的网页[N];中国电脑教育报;2002年
中国博士学位论文全文数据库 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 覃健诚;网络多层纵深防御体系的关键技术研究[D];北京邮电大学;2011年
3 刘凯鹏;社会性标注关键技术及其在信息检索中的应用研究[D];哈尔滨工业大学;2010年
4 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
5 黄小广;港美经济关系研究[D];暨南大学;2008年
6 窦平安;电子商务语义信息共享模式[D];吉林大学;2009年
7 杜阿宁;互联网舆情信息挖掘方法研究[D];哈尔滨工业大学;2007年
8 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年
9 吴瑞;模糊和粗糙环境下的网络用户浏览模式研究[D];天津大学;2006年
10 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 孙学刚;面向奥运的中文网页信息获取方法的初步研究[D];清华大学;2004年
2 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
3 张晓宇;农业网站中垃圾网页过滤方法的研究[D];新疆大学;2011年
4 王祥冰;个人网页人际意义构建的多模态分析[D];西南交通大学;2012年
5 李琦;基于层次聚类和网页关系的人名消歧[D];山东大学;2012年
6 涂涛;嵌入式浏览器网页排版技术的研究与实现[D];华中科技大学;2004年
7 邱鹏;移动终端网页转换系统的设计与实现[D];大连理工大学;2012年
8 杨剑;基于用户访问路径的网页推荐算法研究[D];东北大学;2010年
9 马千驰;基于搜索词的网页结果聚类研究与应用[D];华南理工大学;2010年
10 云颖;复杂网络中的社区发现及进化研究[D];河北大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026