收藏本站
《中文信息学报》 2003年04期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种提高中文搜索引擎检索质量的HTML解析方法

宋睿华  马少平  陈刚  李景阳  
【摘要】:中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大多数情况下是不可能的。在这篇论文中 ,我们提出了网页噪声的概念 ,并针对中文网页的特点 ,实现了一种对网页自动分块并去噪的HTML解析方法 ,从而达到在预处理阶段消除潜在无关项和间接项的目的。实验结果表明 ,该方法能够在不占用查询时间的前提下 10 0 %地消除中文搜索引擎隐藏的间接项 ,以及大约 11%的无法过滤或隐藏的无关项或间接项 ,从而大幅度提高检索结果的查准率。

【引证文献】
中国期刊全文数据库 前5条
1 陈磊,冯玉珉;一种基于网页自动分类的分类查询搜索引擎[J];电脑与信息技术;2004年06期
2 张春元;康耀红;;基于示例的Web信息自动获取系统的设计与实现[J];计算机应用;2005年S1期
3 陈再良;凌力;周强;;dPageRank——一种改进的分布式PageRank算法[J];计算机应用;2006年01期
4 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
5 王艳;张帆;;基于Web挖掘技术的信息检索系统设计与实现[J];情报学报;2007年03期
中国重要会议论文全文数据库 前1条
1 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
中国博士学位论文全文数据库 前1条
1 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 吴新涛;基于向量空间模型的网页信息过滤方法研究[D];大连理工大学;2008年
2 邹腊梅;基于隐马尔可夫模型的Web文本挖掘技术研究[D];南华大学;2007年
3 丛艳;自动文本摘要方法的研究及应用[D];华北电力大学(北京);2004年
4 马安香;基于分类语义的Web信息抽取机制的研究与实现[D];东北大学;2005年
5 梁瑞霞;数字图书馆的移动访问及版权管理研究[D];浙江大学;2006年
6 叶昭晖;网络信息雷达系统的研究与设计[D];国防科学技术大学;2005年
7 王默;基于个性化的石油专业网络信息检索技术研究[D];西南石油大学;2006年
8 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
9 张忠;面向Web表单的信息抽取通用模型[D];浙江大学;2007年
10 郑莉霞;基于文本的Web图像检索技术研究[D];广西大学;2007年
【同被引文献】
中国期刊全文数据库 前10条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
2 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
3 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
4 韩客松,王永成,陈桂林;汉语语言的无词典分词模型系统[J];计算机应用研究;1999年10期
5 杨建林,张国梁;基于词链的自动分词方法[J];情报理论与实践;2000年02期
6 林建;张帆;;网络不良信息过滤研究[J];情报理论与实践;2007年04期
7 张茂元,卢正鼎,邹春燕;一种基于语境的中文分词方法研究[J];小型微型计算机系统;2005年01期
8 朱精南,赵明生;网页版面中区域几何信息的确定[J];计算机工程;2004年10期
9 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
10 刘远超;王晓龙;刘秉权;钟彬彬;;信息检索中的聚类分析技术[J];电子与信息学报;2006年04期
中国重要会议论文全文数据库 前1条
1 邵兵;关毅;王强;王晓龙;任瑞春;;基于上下文平均互信息的问句查询扩展模型[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前9条
1 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
4 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
5 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
6 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
7 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
8 周向东;图像数据库检索中的关键技术研究[D];复旦大学;2003年
9 夏定元;基于内容的图像检索通用技术研究及应用[D];华中科技大学;2004年
中国硕士学位论文全文数据库 前6条
1 左家莉;基于Markov网络的信息检索模型[D];江西师范大学;2005年
2 陈治纲;基于向量空间模型的文本分类系统研究与实现[D];天津大学;2005年
3 吕晓辉;Web信息提取技术研究[D];西北工业大学;2001年
4 刘彤彦;WWW图像分类方法研究[D];山东师范大学;2004年
5 吕韩飞;主题(topical)crawler及其应用——主题搜索引擎[D];浙江大学;2005年
6 王晓华;基于内容的搜索引擎技术研究及其应用[D];郑州大学;2005年
【二级引证文献】
中国期刊全文数据库 前7条
1 徐娟;马自卫;;网络资源采集与学科导航系统的研究与实现[J];现代图书情报技术;2006年06期
2 黄文蓓;杨静;顾君忠;;基于分块的网页正文信息提取算法研究[J];计算机应用;2007年S1期
3 赵欣欣;索红光;刘玉树;;基于标记窗的网页正文信息提取方法[J];计算机应用研究;2007年03期
4 袁毓林;用动词的论元结构跟事件模板相匹配——一种由动词驱动的信息抽取方法[J];中文信息学报;2005年05期
5 胡国平;张巍;王仁华;;基于双层决策的新闻网页正文精确抽取[J];中文信息学报;2006年06期
6 何婷婷;朱薏;张勇;任函;;基于词语属性的计算机辅助获取流行词语研究[J];中文信息学报;2006年06期
7 王艳;张帆;;基于Web挖掘技术的信息检索系统设计与实现[J];情报学报;2007年03期
中国重要会议论文全文数据库 前2条
1 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前1条
1 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 金晓鸥;互联网舆情信息获取与分析研究[D];上海交通大学;2008年
2 谢光华;中文网页自动分类的研究及其应用[D];大连理工大学;2007年
3 吴新涛;基于向量空间模型的网页信息过滤方法研究[D];大连理工大学;2008年
4 时达明;Blog热点话题发现及其作者声誉度研究[D];大连理工大学;2007年
5 谢德辉;面向刑侦网页的信息抽取与主题爬虫应用研究[D];大连理工大学;2007年
6 周炳;基于K-L变换的权威页面挖掘的算法[D];华中科技大学;2006年
7 姜胜辉;基于Web的超硬刀具综合信息检索系统[D];哈尔滨理工大学;2007年
8 李文泽;个性化垂直搜索引擎研究[D];河南大学;2007年
9 王健;Web信息分类与自动摘要的研究[D];天津大学;2006年
10 杜海娟;中国网上商城电子商务企业发展研究[D];天津大学;2005年
【相似文献】
中国期刊全文数据库 前5条
1 刘超,许志宏,杨章远;利用Java 2实现综合Web站点管理系统[J];计算机应用;2001年12期
2 宋睿华,马少平,陈刚,李景阳;一种提高中文搜索引擎检索质量的HTML解析方法[J];中文信息学报;2003年04期
3 陈艳梅,张斌;HTML到XML转换技术的研究与实现[J];现代图书情报技术;2003年05期
4 孙先虎,张曦煌;基于LINUX的嵌入式浏览器的特点和实现[J];计算机应用与软件;2004年07期
5 包宇宁;使用Java编程解析HTML文档[J];福建电脑;2004年09期
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026