收藏本站
《计算机应用》 2007年S1期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于分块的网页正文信息提取算法研究

黄文蓓  杨静  顾君忠  
【摘要】:提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤:网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法,该算法比起以往方法更准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块,来辨别出含有正文的内容块。实验结果表明本方法切实可行并且具有较高的准确性。

手机知网App
【引证文献】
中国期刊全文数据库 前10条
1 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期
2 柳永念;钟诚;焦小焦;;基于单元识别的网页信息抽取方法[J];广西大学学报(自然科学版);2011年05期
3 张春元;;基于CRFs的新闻网页主题内容自动抽取方法[J];广西师范大学学报(自然科学版);2011年01期
4 张霞亮;陈家骏;;基于逻辑行和最大接纳距离的网页正文抽取[J];计算机工程与应用;2009年25期
5 缪霖;邱会中;;Web页面自顶向下的正文信息定位算法[J];计算机工程;2010年13期
6 黄玲;陈龙;;基于网页分块的正文信息提取方法[J];计算机应用;2008年S2期
7 范纯龙;夏佳;肖昕;吕红伟;徐蕾;;基于功能语义单元的博客评论抽取技术[J];计算机应用;2011年09期
8 王舒;朱敏;张明;牛颢;赵瑜;;一种基于特征符号的网页主题信息抽取方法[J];计算机应用研究;2009年12期
9 白似雪;刘华斌;;基于页面分块模型的PageRank算法研究[J];南昌大学学报(工科版);2008年02期
10 李烯;徐朝军;;基于分块和统计相结合的新闻正文抽取[J];情报理论与实践;2010年01期
中国重要会议论文全文数据库 前1条
1 梁勇;张文;;网络舆情采集系统的设计[A];2011年全国通信安全学术会议论文集[C];2011年
中国硕士学位论文全文数据库 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 王伟;搜索引擎智能化技术中若干关键问题的研究与实现[D];河北科技大学;2011年
3 侯明燕;基于网页信息定位的数据抽取技术的研究[D];暨南大学;2011年
4 郭力;Web正文信息抽取与面向层次结构的分类技术研究[D];华南理工大学;2011年
5 秦树伟;面向移动页面自适应平台的Web结构特征聚类算法[D];中国海洋大学;2011年
6 王燕;网站敏感信息监视系统设计与实现[D];解放军信息工程大学;2008年
7 卫莉莉;面向领域的Web文本采集与分类[D];西安建筑科技大学;2011年
8 卢振;面向教育新闻的主题爬虫设计与实现[D];华中科技大学;2011年
9 连璐;WEB主题信息采集系统的设计与实现[D];电子科技大学;2011年
10 夏佳;基于语义标记的Web信息抽取技术研究[D];沈阳航空航天大学;2012年
【参考文献】
中国期刊全文数据库 前2条
1 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
2 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
【共引文献】
中国期刊全文数据库 前10条
1 高博;朱东华;韩士雄;;一种智能化的信息采集系统的研究与实现[J];兵工学报;2009年S1期
2 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期
3 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期
4 赵文;唐建雄;高庆锋;;基于统计的中文网页正文抽取的研究[J];电脑知识与技术;2008年01期
5 王强;战忠丽;张凤君;;基于语义分组向量空间模型的Web新闻检索算法[J];电子科技;2011年04期
6 胡瑜;王立志;;基于HTML结构特征的网页信息提取[J];辽宁石油化工大学学报;2009年03期
7 郑志材;张晶;;基于JAVA的网络蜘蛛的设计与实现[J];硅谷;2009年14期
8 任玉;樊勇;郑家恒;;基于分块的网页主题文本抽取[J];广西师范大学学报(自然科学版);2009年01期
9 张春元;;基于CRFs的新闻网页主题内容自动抽取方法[J];广西师范大学学报(自然科学版);2011年01期
10 胡俊坤;王浩;杨静;;一种基于决策树的新闻内容抽取方法[J];合肥工业大学学报(自然科学版);2009年06期
中国重要会议论文全文数据库 前5条
1 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
2 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
3 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
4 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
5 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前3条
1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
2 王春元;公共网络信息系统安全管理的研究[D];合肥工业大学;2009年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
2 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
3 吕楠;话题追踪与演化分析技术研究[D];解放军信息工程大学;2009年
4 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
5 许世明;中文网页分类技术研究及预分类算法实现[D];西安电子科技大学;2009年
6 陈晶;基于网页的信息抽取的研究[D];西安工业大学;2011年
7 王伟;搜索引擎智能化技术中若干关键问题的研究与实现[D];河北科技大学;2011年
8 高永胜;基于树形结构的网页数据抽取模式研究及应用[D];大连理工大学;2011年
9 张瑞雪;基于DOM树的网页相似度研究与应用[D];大连理工大学;2011年
10 马俊;基于购物搜索引擎的网页解析模块的设计与实现[D];北京邮电大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
2 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
3 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
4 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
5 冯少卿;都云程;;网页结构模板生成新方法研究[J];北京机械工业学院学报;2007年03期
6 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
7 崔林,宋瀚涛,陆玉昌;基于语义相似性的资源协同过滤技术研究[J];北京理工大学学报;2005年05期
8 向胜军;赵一;;基于本体的语义检索系统的设计[J];北京石油化工学院学报;2011年04期
9 李守丽,廖乐健,曹元大,曹树贵;Ontology Learning for Chinese Documents Based on SVD and Conceptual Clustering[J];Journal of Beijing Institute of Technology(English Edition);2003年S1期
10 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
中国重要会议论文全文数据库 前2条
1 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
2 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 胡明;Web中文信息智能获取与分类研究[D];吉林大学;2005年
2 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
3 丁连红;基于信息流的个性化服务研究[D];中国科学院研究生院(计算技术研究所);2006年
4 赵鹏;复杂网络与互联网个性化信息服务的研究[D];中国科学技术大学;2006年
5 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
6 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
7 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
8 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年
9 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
10 李涛;推荐系统中若干关键问题研究[D];南京航空航天大学;2009年
中国硕士学位论文全文数据库 前10条
1 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
2 冯佳;多层文本分类与增量学习关键技术研究[D];西安电子科技大学;2009年
3 陈安;数据仓库和数据挖掘技术在税务系统的应用[D];安徽大学;2003年
4 谭义红;关联规则挖掘及其在概念检索中的应用研究[D];湖南大学;2003年
5 霍艳蓉;网络环境下企业竞争情报系统的建设[D];中国科学院研究生院(文献情报中心);2003年
6 陈晓梅;竞争情报及其在中国的发展与应用[D];中国海洋大学;2003年
7 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
8 丛艳;自动文本摘要方法的研究及应用[D];华北电力大学(北京);2004年
9 邓丽;面向主题的XML网页的模式和数据抽取[D];华侨大学;2004年
10 白云峰;企业竞争情报系统应用问题研究[D];吉林大学;2004年
【二级引证文献】
中国期刊全文数据库 前10条
1 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
2 柳刚;吴德萍;;Web Proxy在高校图书馆数字资源中的应用[J];电脑编程技巧与维护;2010年22期
3 叶昭晖;杨高峰;杨岳湘;;一种基于潜语义分析的中文网页自动摘要方法[J];广西大学学报(自然科学版);2012年02期
4 夏天;;基于扩展标记树的网页正文抽取[J];广西师范大学学报(自然科学版);2011年01期
5 王琴;;移动学习系统研究综述[J];电脑知识与技术;2012年34期
6 李稚楹;杨武;谢治军;;PageRank算法研究综述[J];计算机科学;2011年S1期
7 梁正友;欧杰;俞闽敏;;基于图文有效信息量的网页正文定位[J];计算机工程;2011年23期
8 范纯龙;夏佳;肖昕;吕红伟;徐蕾;;基于功能语义单元的博客评论抽取技术[J];计算机应用;2011年09期
9 陈志雄;朱向庆;;基于特征词统计的网页结构化信息抽取[J];嘉应学院学报;2011年02期
10 赵晓峰;凌天斌;彭波;王转妮;;一种基于网页源文件的信息提取算法[J];计算机与现代化;2012年02期
中国博士学位论文全文数据库 前3条
1 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
2 梁成军;网球技战术决策支持系统研究与应用[D];上海体育学院;2011年
3 徐朝军;网络课程效能自动评价研究[D];南京师范大学;2012年
中国硕士学位论文全文数据库 前10条
1 孟桂国;基于维基百科的双语语料挖掘技术研究[D];苏州大学;2010年
2 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
3 王伟;搜索引擎智能化技术中若干关键问题的研究与实现[D];河北科技大学;2011年
4 李亚洲;文本分类语料库自动构建系统的研究与改进[D];武汉理工大学;2011年
5 邓丹君;基于Lucene的垂直搜索引擎关键技术研究[D];武汉理工大学;2011年
6 徐东丽;基于Crawler的Web服务搜索研究[D];大连海事大学;2011年
7 文军舰;基于Nutch的Web结构挖掘算法研究[D];天津财经大学;2011年
8 任昌;基于多特征融合的网页对象自动定位技术研究[D];中北大学;2011年
9 张艳;嵌入式浏览器用户行为感知技术的研究与实现[D];华南理工大学;2011年
10 郭力;Web正文信息抽取与面向层次结构的分类技术研究[D];华南理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前3条
1 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
2 高军 ,王腾蛟 ,杨冬青 ,唐世渭;基于Ontology的Web内容二阶段半自动提取方法[J];计算机学报;2004年03期
3 宋睿华,马少平,陈刚,李景阳;一种提高中文搜索引擎检索质量的HTML解析方法[J];中文信息学报;2003年04期
【相似文献】
中国期刊全文数据库 前10条
1 ;计算机噪音大的处理[J];四川气象;1996年04期
2 闫德勤;刘胜蓝;;基于局部切空间偏离度的自适应邻域选取算法[J];模式识别与人工智能;2010年06期
3 ;节流膨胀式致冷探测器气动噪音的研究[J];激光与红外;1977年04期
4 沈亮;;雷达目标噪音对角跟踪精度的影响[J];制导与引信;1981年02期
5 ;国外信息[J];今日科技;1994年11期
6 哈晓宇;孙阳阳;;再探机箱风扇噪音过大的原因[J];河南省情与统计;2000年08期
7 宋吉江,牛轶霞,于春战;光驱噪音简析及现有的几种降噪技术[J];微电子技术;2001年04期
8 韩幸幸;爱机正常工作的温度环境[J];电脑校园;2003年02期
9 ;此时无声胜有声——电脑静音大揭秘[J];微电脑世界;2004年06期
10 冯维扬;竞争信息及其可靠性评估方法研究[J];图书情报工作;2005年09期
中国重要会议论文全文数据库 前10条
1 樊灵;蔡水旺;杨泾涛;宗远华;;R407c系列压缩机的开发[A];2001年全国空调器、电冰箱(柜)及压缩机学术交流会论文集[C];2001年
2 刘显臣;;汽车振动噪声原因浅析[A];第五届中国CAE工程分析技术年会论文集[C];2009年
3 王慧莉;;净水厂设计中应注意的几个问题[A];中国铁道学会铁道环境保护委员会给排水学组2005年论文集[C];2005年
4 延海新;;汽车盘式制动系统在使用过程中的问题探讨[A];第九届中国摩擦密封材料技术交流暨产品展示会论文集[C];2007年
5 薛修增;周玉;;酸洗烘干系统的改造[A];2008年河北省轧钢技术与学术年会论文集(下)[C];2008年
6 祁虔;李祖枢;谭智;但远宏;萧凌;;基于卡尔曼滤波的倒立摆控制系统噪声抑制[A];2009年中国智能自动化会议论文集(第一分册)[C];2009年
7 湯岳儒;梁坤億;黄淑娥;張鈺炯;;间隙公差对低压外壳型涡卷压缩机之影响[A];第九届海峡两岸制冷空调技术交流会论文集[C];2009年
8 李强;金泰木;梁君海;孙彦;马云双;;300km/h动车组新风改造设计及验证[A];2008年科技学术研讨年提速安全与和谐铁路论文集[C];2008年
9 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
10 陈启;徐秋生;李海平;;VRV空调在音乐厅的应用案例[A];山东省暖通空调制冷2007年学术年会论文集[C];2007年
中国重要报纸全文数据库 前10条
1 记者 李岱娜;有效规范娱乐场所噪音管理[N];汕头日报;2008年
2 伟伟;光驱读盘时为何发出很大噪音[N];中国电脑教育报;2005年
3 本报记者 雒焕素 王纯朴;记者再访噪音重灾区[N];兰州日报;2005年
4 记者 王纯朴;健全长效管理机制[N];兰州日报;2006年
5 本报记者 刘建;上海低频噪音扰民成顽症 环保法规存真空亟待解决[N];法制日报;2009年
6 林彦龙;尽快解决噪音扰民问题[N];深圳特区报;2007年
7 刘瑞婷 编译;比瑟姆塔:会呼啸的建筑[N];中国房地产报;2006年
8 史佳;减少氧疗噪音法[N];医药养生保健报;2006年
9 ;中央空调机组噪音问题不可小视[N];中华建筑报;2004年
10 宋海云;家庭内噪音对婴幼儿的危害[N];民族医药报;2004年
中国博士学位论文全文数据库 前10条
1 曲圣宁;中国股市噪音成分及其影响因素研究[D];华中科技大学;2011年
2 梁立俊;基于中国股票市场制度安排的行为金融研究[D];复旦大学;2004年
3 程功;基于结构化模型的信用风险度量及其应用研究[D];天津大学;2007年
4 梁崴;微观结构噪音下的资产价格行为[D];天津大学;2010年
5 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
6 喻天舒;管理者报酬契约中的业绩评价及其噪音研究[D];华中科技大学;2009年
7 王瑞敏;神经元传输函数和网络噪音对联想记忆反馈网络动力学特性的影响[D];兰州大学;2006年
8 胡疆锋;亚文化的风格:抵抗与收编[D];首都师范大学;2007年
9 安金龙;支持向量机若干问题的研究[D];天津大学;2004年
10 许兢宏;生后早期声环境影响中枢听觉功能发育的细胞分子机制[D];华东师范大学;2009年
中国硕士学位论文全文数据库 前10条
1 吴艳;股票市场的非线性及噪音研究[D];武汉大学;2004年
2 陈玉兰;基于标签特征向量的网页去噪声研究及其应用[D];华东师范大学;2010年
3 张渊斌;噪音影响下的群体运动同步问题[D];复旦大学;2010年
4 洪诗谐;同声传译中的信息缺失[D];厦门大学;2007年
5 严斐;低压齿轮泵噪音分析与控制[D];苏州大学;2011年
6 孙炯宁;噪声环境下汉语数字语音识别系统的研究[D];南京信息工程大学;2005年
7 张应彪;自然通风逆流湿式冷却塔噪音的传播规律及降噪研究[D];山东大学;2008年
8 曾凡荣;脉冲强磁场下电输运测试系统研究[D];华中科技大学;2006年
9 牛传贵;秦山二期核电站主蒸汽隔离阀振动与噪音分析[D];上海交通大学;2008年
10 赵锟;含纳米颗粒润滑脂的噪音特性研究[D];哈尔滨工业大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026