收藏本站
《清华大学学报(自然科学版)》 2005年S1期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

模板化网页主题信息的提取方法

欧健文  董守斌  蔡斌  
【摘要】:为了消除网页噪音,有效地提取基于模板的网页主题信息,提出了一种新的信息提取方法。该方法采用机器自动学习方式生成网页集的模板;以网页链接关系中的锚点文本作为提取目标对模板进行标记,生成对应模板的提取规则;依据模板的提取规则对网页主题信息进行提取。对国内2 588个新闻网页进行了检测。实验结果表明,该方法可以快速、有效地提取模板生成的网页集主题信息,准确率达99.5%。将该方法应用于搜索引擎系统(木棉检索)中,与原来的检索系统相比较,索引文件的大小减少约50%,检索的速度和精确度也得到提高。

【引证文献】
中国期刊全文数据库 前10条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
3 翟东升;杨洋;;基于XML技术的USPTO专利抽取系统[J];北京工业大学学报;2011年04期
4 冯少卿;都云程;;网页结构模板生成新方法研究[J];北京机械工业学院学报;2007年03期
5 杨志伟;王鑫;;基于本体的气象领域聚焦爬虫[J];中国管理信息化;2011年04期
6 徐中华;;Web信息抽取方法概述[J];经营管理者;2008年09期
7 刘晨曦;吴扬扬;;一种基于块分析的网页去噪音方法[J];广西师范大学学报(自然科学版);2007年02期
8 李舒晨;刘云;李勇;;网络舆情分析中网页信息预处理方案的实现[J];电脑与电信;2008年10期
9 张志强;;基于分块频繁集抽取的Web文本关联分类[J];福建电脑;2011年11期
10 吴麒;陈兴蜀;谭骏;;基于权值优化的网页正文内容提取算法[J];华南理工大学学报(自然科学版);2011年04期
中国博士学位论文全文数据库 前4条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
2 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
3 刘丹;大成组技术中的若干关键技术研究[D];浙江大学;2010年
4 张彦超;社交网络服务中信息传播模式与舆论演进过程研究[D];北京交通大学;2012年
【参考文献】
中国期刊全文数据库 前4条
1 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
2 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
3 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
4 张志刚,陈静,李晓明;一种HTML网页净化方法[J];情报学报;2004年04期
【共引文献】
中国期刊全文数据库 前10条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
3 冯少卿;都云程;;网页结构模板生成新方法研究[J];北京机械工业学院学报;2007年03期
4 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
5 马瑞民;钱浩;;基于时间频率加权DOM的Web信息抽取方法[J];长江大学学报(自然科学版);2011年01期
6 张磊;陈俊亮;孟祥武;沈筱彦;郭杰;;基于用户偏好的垂直搜索算法[J];电子科技大学学报;2010年01期
7 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期
8 唐纬晟;苗放;刘斌;;XML实现文化数字数据无平台交换[J];电脑知识与技术(学术交流);2007年09期
9 程基鹏;;一个网页过滤改进算法的应用与实现[J];电脑知识与技术;2009年33期
10 李春艳;徐保民;;Web数据抽取技术研究初探[J];电脑知识与技术;2009年35期
中国博士学位论文全文数据库 前10条
1 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
2 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
3 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
4 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
5 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
6 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
7 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
8 董宝力;Web制造资源的语义发现关键技术研究[D];浙江大学;2007年
9 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
10 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
【同被引文献】
中国期刊全文数据库 前10条
1 郑伟;;浅谈企业竞争情报系统的建立[J];安徽冶金;2005年01期
2 李宁,马庆元,郭继平;我国天然气资源的可持续发展与利用[J];鞍山科技大学学报;2003年02期
3 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
4 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
5 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
6 冯少卿;都云程;;网页结构模板生成新方法研究[J];北京机械工业学院学报;2007年03期
7 毕靖,王青,石晓荣;神经网络数据融合机动目标跟踪算法[J];北京航空航天大学学报;2002年06期
8 吴晶;曾骁;陈真勇;熊璋;;基于潜在兴趣语义描述的门户个性化兴趣建模[J];北京航空航天大学学报;2008年02期
9 曲文龙;杨炳儒;张克君;;基于广义后缀树的事件序列频繁情节挖掘算法[J];北京科技大学学报;2006年05期
10 杜建凤,崔勇,张寒松,严忠慧;神经网络PID控制[J];北京科技大学学报;1998年06期
中国重要报纸全文数据库 前2条
1 马海兵;[N];光明日报;2007年
2 姜德兴;[N];中国建设报;2007年
中国博士学位论文全文数据库 前10条
1 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
2 操云甫;基于Internet/Intranet的资源共享模型及技术研究[D];中国科学院研究生院(软件研究所);2002年
3 兰少华;多Agent技术及其应用研究[D];南京理工大学;2002年
4 陈品德;基于Web的适应性学习支持系统研究[D];华南师范大学;2003年
5 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
6 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
7 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
8 胡明;Web中文信息智能获取与分类研究[D];吉林大学;2005年
9 乔林;基于多关键词检索的企业竞争情报搜集方法研究[D];中国科学技术大学;2006年
10 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
【二级引证文献】
中国期刊全文数据库 前10条
1 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
2 袁鸿雁;;基于本体的HTML表格识别技术的研究[J];长春工程学院学报(自然科学版);2010年01期
3 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
4 胡朗;谭伟;秦拯;;基于Agent与本体技术并支持QoS约束的网格服务发现[J];东莞理工学院学报;2010年03期
5 郎凤举;;HTMLParser提取网页超链接研究[J];电脑编程技巧与维护;2010年02期
6 胡晓锋;;JSON与XML在网络数据传输中的应用分析[J];电脑编程技巧与维护;2010年10期
7 陈蕾蕾;张如静;;面向Web的新闻网页正文信息抽取策略研究[J];电脑知识与技术;2008年S2期
8 邬海波;吴保国;;基于WebService的多源数据库数据访问方法[J];电脑知识与技术;2009年31期
9 戴德宝;;三合一模式教学平台分析与实现[J];电脑知识与技术;2010年01期
10 陈白云;;汇聚媒体资源 创新新闻搜索与热点分析服务平台[J];电脑知识与技术;2010年21期
中国博士学位论文全文数据库 前10条
1 谭征宇;面向用户感知信息的产品概念设计技术研究[D];浙江大学;2007年
2 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
3 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
4 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
5 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年
6 王萍;网络环境下的领域知识挖掘[D];华东师范大学;2010年
7 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
8 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
9 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
10 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 殷亚秋;;遥感影像震害信息提取技术研究[J];科技传播;2011年16期
2 吕卫;;万维网时代的教学活动分析[J];科学教育;2002年05期
3 李晓琴;田垄;孙波;;基于复数矩不变性的遥感边缘信息提取[J];遥感信息;2011年04期
4 ;网页防篡改最新技术解析[J];计算机与网络;2010年17期
5 范格华;齐紫微;罗俊芝;宋爱斌;李旭辉;;基于偏最小二乘回归的运动员跳远成绩影响因素分析[J];信息系统工程;2011年08期
6 薄树奎;刘华;;类别划分对特定类别信息提取的影响[J];计算机工程与应用;2011年24期
7 郑冬雪;赵菁华;;《网页内容可访问性指南》国家标准解读[J];信息技术与标准化;2011年08期
8 苗帅;王卫东;;工程图纸标题栏的自动生成及其信息提取的方法实现[J];计算机应用与软件;2011年09期
9 成必成;;高校毕业生生源数据库编制研究[J];农业网络信息;2011年07期
10 张云雷;周军;刘海霞;;一种基于DOM的Web关键信息提取方法[J];现代计算机;2011年06期
中国重要会议论文全文数据库 前10条
1 邢莉新;许惠平;;卫星遥感数据信息提取新方法研究[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
2 彭天强;邵美珍;;基于神经网络的K-L变换方法研究[A];中国图象图形学会第十届全国图像图形学术会议(CIG’2001)和第一届全国虚拟现实技术研讨会(CVR’2001)论文集[C];2001年
3 蔡建峰;;基于管理层次的信息供给策略[A];2002年中国管理科学学术会议论文集[C];2002年
4 刘振民;李四海;韩震;;HY-1卫星资料悬浮泥沙浓度信息提取应用系统的研制[A];第十五届全国遥感技术学术交流会论文摘要集[C];2005年
5 王小军;李永森;;海南基础地理信息数据集建设概要[A];全国测绘科技信息网中南分网第二十一次学术信息交流会论文集[C];2007年
6 陈永慧;李小娟;胡德勇;;京津冀都市圈城市扩展遥感信息提取及动态变化分析[A];地理学与生态文明建设——中国地理学会2008年学术年会论文摘要集[C];2008年
7 杨俊;廖闻剑;彭艳兵;;一类冲突证据的融合方法[A];第十届中国科协年会信息化与社会发展学术讨论会分会场论文集[C];2008年
8 刘宁宁;孙铁;瞿寿德;;基于图象序列的水泥煅烧区的温度预报研究[A];1995年中国智能自动化学术会议暨智能自动化专业委员会成立大会论文集(下册)[C];1995年
9 安志宏;田素荣;张泽勋;孙永军;;基于ETM+遥感影像的黄河源区湿地信息自动提取方法研究[A];第十四届全国图象图形学学术会议论文集[C];2008年
10 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
中国重要报纸全文数据库 前10条
1 郜婕;万维网20岁庆生,创始人很烦广告[N];新华每日电讯;2009年
2 本报记者 马春茂;万维网发展远未完结[N];中国新闻出版报;2009年
3 方兴东;《编织万维网》:万维网之父谈万维网[N];计算机世界;2003年
4 陈建;“万维网之父”的故事[N];山西经济日报;2004年
5 朴实;你好万维网B2B之路怎么走[N];中国计算机报;2001年
6 邢小萍;国际万维网大会首次在中国举办[N];网络世界;2008年
7 陈友梅;万维网专做风险投资[N];中国计算机报;2000年
8 记者 刘瑜;如何把流失的读者拉回图书馆?[N];深圳商报;2009年
9 浩鹏;你好,万维网[N];中国计算机报;2007年
10 张忠霞 新华社特稿;如果没有他,因特网可能还“藏在深闺”[N];新华每日电讯;2004年
中国博士学位论文全文数据库 前10条
1 吕苗荣;信息提取与矿山信息系统的研究开发[D];中南大学;2003年
2 刘亚岚;遥感影像群判读技术的试验研究[D];中国科学院研究生院(遥感应用研究所);2004年
3 姚琛;基于信息提取计算的动态交通数据分析及应用[D];西南交通大学;2011年
4 刘伟东;高光谱遥感土壤信息提取与挖掘研究[D];中国科学院研究生院(遥感应用研究所);2002年
5 刘顺喜;高光谱遥感土地利用信息提取技术研究[D];北京林业大学;2005年
6 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
7 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
8 许建潮;Web挖掘中若干问题的研究[D];吉林大学;2005年
9 郑跃鹏;基于“3S”技术的广西海岸带变化研究[D];中国地质大学(北京);2009年
10 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 许勇;基于百科词典的知识获取系统的研究与实现[D];北京工业大学;2001年
2 张磊;基于Internet的智能信息挖掘系统建模及关键技术研究[D];西北工业大学;2003年
3 李慧;基于多源遥感数据的湿地信息提取及景观格局研究[D];福建师范大学;2005年
4 曹鲁慧;远程教育中基于语义Web的信息处理技术研究[D];山东大学;2005年
5 赵长领;基于XML的中间文档信息提取技术研究[D];山东大学;2005年
6 田新光;面向对象高分辨率遥感影像信息提取[D];中国测绘科学研究院;2007年
7 董庆吉;山东招远黄埠岭金矿床地质—地球化学特征及矿体定位信息提取[D];吉林大学;2005年
8 马雪梅;建设用地及其变化信息遥感监测方法研究[D];河海大学;2006年
9 罗忠诚;STEP-NC车削数控系统编译器的研究与开发[D];华中科技大学;2005年
10 周英杰;青海湖地区荒漠化演化遥感动态分析[D];中国地质大学(北京);2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026