收藏本站
《广西师范大学学报(自然科学版)》 2007年02期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种基于块分析的网页去噪音方法

刘晨曦  吴扬扬  
【摘要】:一张网页通常由许多信息块组成,除了主题内容块以外,还常常包含广告信息、导航条、版权信息等信息块。结合网页块大小、位置等信息以及网页本身的一些特点,提出了一种基于块分析的、自动调整阈值的去除噪音方法,该算法显著减少了网页的噪音,并通过网页分类对比实验证明了该算法的有效性。

【引证文献】
中国期刊全文数据库 前6条
1 张春元;;基于CRFs的新闻网页主题内容自动抽取方法[J];广西师范大学学报(自然科学版);2011年01期
2 宋鳌;支琤;周军;罗传飞;安然;;基于LCS的特征树最大相似性匹配网页去噪算法[J];电视技术;2011年13期
3 郭淼霞;;中文网页分类研究综述[J];赤峰学院学报(自然科学版);2011年12期
4 毛先领;何靖;闫宏飞;;网页去噪:研究综述[J];计算机研究与发展;2010年12期
5 郭淼霞;;网页分类中的数据预处理方法研究[J];莆田学院学报;2011年05期
6 张春元;康耀红;伍小芹;;Web新闻自动采集发布系统的设计与实现[J];计算机技术与发展;2009年09期
中国硕士学位论文全文数据库 前7条
1 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
2 宋鳌;网页去噪在交互电视中的应用与研究[D];上海交通大学;2011年
3 陈金鑫;基于WEB的书目信息自动搜集与服务[D];南京师范大学;2008年
4 葛永兴;基于贝叶斯算法和后向链接的中文网页组合分类研究[D];东北师范大学;2009年
5 王志明;Web新闻专题组织与生成系统研究[D];中南大学;2008年
6 李丹东;新闻搜索分析平台的相关技术研究[D];哈尔滨工程大学;2009年
7 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年
【参考文献】
中国期刊全文数据库 前3条
1 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
2 张志刚,陈静,李晓明;一种HTML网页净化方法[J];情报学报;2004年04期
3 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
【共引文献】
中国期刊全文数据库 前10条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
3 翟东升;杨洋;;基于XML技术的USPTO专利抽取系统[J];北京工业大学学报;2011年04期
4 冯少卿;都云程;;网页结构模板生成新方法研究[J];北京机械工业学院学报;2007年03期
5 程基鹏;;一个网页过滤改进算法的应用与实现[J];电脑知识与技术;2009年33期
6 杨志伟;王鑫;;基于本体的气象领域聚焦爬虫[J];中国管理信息化;2011年04期
7 徐中华;;Web信息抽取方法概述[J];经营管理者;2008年09期
8 李舒晨;刘云;李勇;;网络舆情分析中网页信息预处理方案的实现[J];电脑与电信;2008年10期
9 张志强;;基于分块频繁集抽取的Web文本关联分类[J];福建电脑;2011年11期
10 李剑;;基于DOM和神经网络的网页净化应用[J];电子科技;2012年01期
中国重要会议论文全文数据库 前6条
1 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
2 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
3 江涛;于洪志;李刚;;基于藏文网页的网络舆情监控系统研究[A];全国计算机安全学术交流会论文集(第二十三卷)[C];2008年
4 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
5 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 ;Information Extraction Algorithms and Its Application Based on Word Density in a Webpage[A];Proceedings of 2010 2nd International Conference on Intellectual Technology in Industrial Practice (ITIP2010) Volume 2[C];2010年
中国博士学位论文全文数据库 前8条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
2 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
3 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
4 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
5 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
6 刘丹;大成组技术中的若干关键技术研究[D];浙江大学;2010年
7 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
8 张彦超;社交网络服务中信息传播模式与舆论演进过程研究[D];北京交通大学;2012年
中国硕士学位论文全文数据库 前10条
1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
2 杜广飞;Web应用移动化适配服务中间件的研究与实现[D];郑州大学;2010年
3 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
4 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
5 付涛;藏文网页除噪技术研究[D];西北民族大学;2010年
6 李元乾;基于移动搜索用户关联的信息检索研究[D];北京交通大学;2010年
7 汪涵;金融投资数据仓库中数据融合的设计与实现[D];电子科技大学;2010年
8 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
9 甄涛;基于社团发现的Blog信息收集原型系统的研究[D];解放军信息工程大学;2009年
10 刘欣;基于结构信息的中文网页自动分类技术研究[D];南京航空航天大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 郭磊,史创明,郭凤英;利用ASP&SQL开发网络考试系统[J];安阳师范学院学报;2002年05期
2 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
3 卫金茂,王淑琴,汪大伟;系统辨识的神经网络实现[J];东北师大学报(自然科学版);1997年04期
4 韦玉科;神经网路结构优化问题的研究[J];电机电器技术;2000年02期
5 周毅;通向.NET认证之路:C#语言基础[J];电脑知识与技术;2004年11期
6 王厚芹;车士义;;推进我国三网融合势在必行[J];电视技术;2010年06期
7 金更达;文献类电子资源元数据发展浅议[J];大学图书馆学报;2003年06期
8 蔡兵,杨晓帆,陈廷槐,杨胜中;基于神经网络方法的系统级故障诊断[J];重庆大学学报(自然科学版);1995年03期
9 刘晓勇;;基于GA与SVM融合的网页分类算法[J];辽宁工程技术大学学报(自然科学版);2010年05期
10 贾庭兰;朱佩江;崔竞飞;欧阳峰;;基于视频服务的交互业务实现机制研究[J];广播与电视技术;2010年02期
中国重要会议论文全文数据库 前1条
1 李晓;;多层客户机/服务器结构分析[A];全国第十四届计算机科学及其在仪器仪表中的应用学术交流会论文集[C];2001年
中国硕士学位论文全文数据库 前10条
1 陈鑫;中文智能搜索引擎[D];四川大学;2004年
2 董树明;半结构化Web信息抽取技术及其应用研究[D];东南大学;2004年
3 王军;中文搜索引擎的设计与实现[D];华中科技大学;2004年
4 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
5 郦金花;基于XML的MARC发布系统的设计与实现[D];苏州大学;2005年
6 朱南丽;基于DOM的网页主体信息块抽取[D];昆明理工大学;2006年
7 马腾;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2006年
8 苏捷;数字图书馆中MARC格式转换问题的研究[D];太原理工大学;2006年
9 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
10 吴宝贵;搜索引擎中索引技术研究与实现[D];西安电子科技大学;2008年
【二级引证文献】
中国期刊全文数据库 前9条
1 陈白云;;汇聚媒体资源 创新新闻搜索与热点分析服务平台[J];电脑知识与技术;2010年21期
2 郭淼霞;;中文网页分类研究综述[J];赤峰学院学报(自然科学版);2011年12期
3 杨光熠;;热点新闻的采集与发布[J];黑龙江科技信息;2010年14期
4 干文敏;李俊;李剑;;一种基于单模型的网页净化方法[J];计算机与现代化;2012年02期
5 刘文静;许志伟;何聪慧;;WEB到WAP的转换过程中页面去噪问题的研究[J];计算机应用与软件;2012年04期
6 陈建国;;基于Web结构的网站新闻采集系统的设计与实现[J];井冈山大学学报(自然科学版);2012年02期
7 李润彤;;新闻网页的视觉识别系统设计[J];科技传播;2012年08期
8 郭淼霞;;网页分类中的数据预处理方法研究[J];莆田学院学报;2011年05期
9 何光虹;赵英凯;李彦文;;网络信息监测采集技术在中医药情报研究中的应用[J];医学信息(上旬刊);2011年09期
中国重要会议论文全文数据库 前1条
1 ;Research and Implementation of Web Structure-Based News Gathering System[A];Proceedings of 2010 Second Asia-Pacific Conference on Information Processing (APCIP 2010)[C];2010年
中国硕士学位论文全文数据库 前3条
1 黄明杨;基于web的新闻采编系统的设计与实现[D];电子科技大学;2011年
2 任海果;基于主题事件的舆情分析系统的设计与实现[D];北京邮电大学;2012年
3 史君;支持HTML5技术的嵌入式移动浏览器研究与开发[D];大连海事大学;2012年
【二级参考文献】
中国期刊全文数据库 前4条
1 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
2 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
3 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
4 张志刚,陈静,李晓明;一种HTML网页净化方法[J];情报学报;2004年04期
【相似文献】
中国期刊全文数据库 前10条
1 彭小刚;明仲;王海涛;周景洲;;基于wordNet的类别可拓展网页分类系统(英文)[J];深圳大学学报(理工版);2009年02期
2 万乐;左万利;高金;;基于主题的网页噪音去除机制[J];计算机工程与设计;2008年08期
3 张茂元;邹春燕;卢正鼎;;一种基于语义匹配的Web信息提取方法研究[J];计算机工程与应用;2006年23期
4 江祥奎,原思聪;中文网页分类中的网页特征提取方法[J];电脑开发与应用;2005年10期
5 张云雷;周军;刘海霞;;一种基于DOM的Web关键信息提取方法[J];现代计算机;2011年06期
6 李明杰;;特征抽取方法在网页分类中的应用[J];常熟理工学院学报;2005年04期
7 齐宏卓;;浅谈网页模糊归类的应用[J];价值工程;2010年27期
8 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期
9 韩培培;付博;;基于有限状态机的URL解析[J];微处理机;2010年05期
10 高波,张忠能,查志琴;基于文字链接比的网页分类的研究[J];计算机工程与应用;2004年27期
中国重要会议论文全文数据库 前10条
1 邢莉新;许惠平;;卫星遥感数据信息提取新方法研究[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
2 彭天强;邵美珍;;基于神经网络的K-L变换方法研究[A];中国图象图形学会第十届全国图像图形学术会议(CIG’2001)和第一届全国虚拟现实技术研讨会(CVR’2001)论文集[C];2001年
3 蔡建峰;;基于管理层次的信息供给策略[A];2002年中国管理科学学术会议论文集[C];2002年
4 刘振民;李四海;韩震;;HY-1卫星资料悬浮泥沙浓度信息提取应用系统的研制[A];第十五届全国遥感技术学术交流会论文摘要集[C];2005年
5 王小军;李永森;;海南基础地理信息数据集建设概要[A];全国测绘科技信息网中南分网第二十一次学术信息交流会论文集[C];2007年
6 陈永慧;李小娟;胡德勇;;京津冀都市圈城市扩展遥感信息提取及动态变化分析[A];地理学与生态文明建设——中国地理学会2008年学术年会论文摘要集[C];2008年
7 杨俊;廖闻剑;彭艳兵;;一类冲突证据的融合方法[A];第十届中国科协年会信息化与社会发展学术讨论会分会场论文集[C];2008年
8 刘宁宁;孙铁;瞿寿德;;基于图象序列的水泥煅烧区的温度预报研究[A];1995年中国智能自动化学术会议暨智能自动化专业委员会成立大会论文集(下册)[C];1995年
9 安志宏;田素荣;张泽勋;孙永军;;基于ETM+遥感影像的黄河源区湿地信息自动提取方法研究[A];第十四届全国图象图形学学术会议论文集[C];2008年
10 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
中国重要报纸全文数据库 前10条
1 陈永清 颜廷杰;金属矿产快速评价预测系统完成[N];地质勘查导报;2006年
2 邱阳;基于信息提取计算的路网动态交通分析技术[N];科技日报;2007年
3 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年
4 记者 李为民 通讯员 顾宸宇;民盟陕西省委建议加速“数字陕西”建设[N];人民政协报;2003年
5 中国科学院东北地理与农业生态研究所 李建平;保护地球之肾 遥感体检湿地健康[N];中国水利报;2008年
6 记者 于莘明;我国地质调查取得一批新成果[N];科技日报;2009年
7 王丽霞;精心组织国家863项目[N];中国交通报;2007年
8 郑丽红;不患才之不赡 而患志之不立[N];科技日报;2006年
9 山西省文物考古研究所 宋建忠;横水墓地发掘与现场文物保护的思路与对策[N];中国文物报;2008年
10 海量智能计算技术研究中心 霍刚;新兴技术为互联网加速[N];计算机世界;2007年
中国博士学位论文全文数据库 前10条
1 吕苗荣;信息提取与矿山信息系统的研究开发[D];中南大学;2003年
2 刘亚岚;遥感影像群判读技术的试验研究[D];中国科学院研究生院(遥感应用研究所);2004年
3 姚琛;基于信息提取计算的动态交通数据分析及应用[D];西南交通大学;2011年
4 刘伟东;高光谱遥感土壤信息提取与挖掘研究[D];中国科学院研究生院(遥感应用研究所);2002年
5 刘顺喜;高光谱遥感土地利用信息提取技术研究[D];北京林业大学;2005年
6 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
7 许建潮;Web挖掘中若干问题的研究[D];吉林大学;2005年
8 郑跃鹏;基于“3S”技术的广西海岸带变化研究[D];中国地质大学(北京);2009年
9 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
10 马小计;正地貌遥感影像在土地利用中的应用研究[D];北京林业大学;2006年
中国硕士学位论文全文数据库 前10条
1 韩培培;网页分类及存储查询系统的设计及实现[D];燕山大学;2010年
2 许勇;基于百科词典的知识获取系统的研究与实现[D];北京工业大学;2001年
3 张磊;基于Internet的智能信息挖掘系统建模及关键技术研究[D];西北工业大学;2003年
4 李慧;基于多源遥感数据的湿地信息提取及景观格局研究[D];福建师范大学;2005年
5 曹鲁慧;远程教育中基于语义Web的信息处理技术研究[D];山东大学;2005年
6 赵长领;基于XML的中间文档信息提取技术研究[D];山东大学;2005年
7 田新光;面向对象高分辨率遥感影像信息提取[D];中国测绘科学研究院;2007年
8 董庆吉;山东招远黄埠岭金矿床地质—地球化学特征及矿体定位信息提取[D];吉林大学;2005年
9 马雪梅;建设用地及其变化信息遥感监测方法研究[D];河海大学;2006年
10 罗忠诚;STEP-NC车削数控系统编译器的研究与开发[D];华中科技大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026