收藏本站
《计算机应用与软件》 2009年12期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

垂直搜索引擎中过滤器的设计与实现

梁党卫  彭文滔  边利亚  
【摘要】:从海量Web资源中高效、快捷地检索信息的常规的方法是搜索引擎和信息抽取等技术,而过滤器则起着重要的Web网页预处理作用。提出了基于DOM树结构的过滤器方法,讨论了垂直搜索引擎中页面预处理的方法、设计与实现,并给出了具体的实现算法。最后结合在石油领域垂直搜索引中的具体应用,总结了过滤器适应于当前网页的结构和设计的特点,验证了方法的正确性和适用性,大大提高了垂直搜索引擎的效率和准确率。

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 康海燕;任俊玲;陈昕;王鹤沩;;基于自然语言处理的多级网页过滤器研究[J];信息安全与技术;2011年10期
【参考文献】
中国期刊全文数据库 前3条
1 陈康,武港山;基于Ontology的信息检索技术研究[J];中文信息学报;2005年02期
2 张树瑜,杜国宁,朱仲英;基于Web的半结构化信息抽取技术研究[J];系统工程与电子技术;2004年05期
3 欧阳柳波,李学勇,李国徽,王鑫;网络蜘蛛搜索策略进展研究[J];小型微型计算机系统;2005年04期
【共引文献】
中国期刊全文数据库 前10条
1 刘珊慧;万韵;杨乐;;基于本体的农业信息资源语义检索过程研究[J];安徽农业科学;2009年23期
2 郑志波;;搜索器的设计与实现[J];电脑知识与技术(学术交流);2007年01期
3 余承健;;基于表格语义的Web信息抽取方法的研究[J];电脑知识与技术;2008年12期
4 张丽敏;;垂直搜索引擎的主题爬虫策略[J];电脑知识与技术;2010年15期
5 巫志勇;;基于XMLHTTP的网站数据自动采集[J];福建电脑;2007年07期
6 王昌辉;王远景;;基于URL路径的Web信息检索模型的研究[J];贵州教育学院学报;2008年09期
7 孔田野;李万龙;张海鸥;;基于药品本体的信息检索系统研究[J];河北科技大学学报;2008年03期
8 李涵;陈志国;续亚锋;;基于本体的多Agent信息检索系统模型探析[J];河南大学学报(自然科学版);2008年01期
9 李哲;张海鸥;;基于本体的信息检索模型研究[J];航空计算技术;2009年06期
10 刘继红;吴军华;任明鑫;;基于改进的网络蜘蛛算法抽取Web站点结构的方法[J];江南大学学报(自然科学版);2009年05期
中国重要会议论文全文数据库 前4条
1 李伟刚;张克亮;王慧兰;;基于航空领域本体知识库的语义检索研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
3 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
4 冯淑芳;王素格;;面向观点挖掘的汽车本体知识库的构建[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前2条
1 何琳;古农学本体的半自动构建及检索研究[D];南京农业大学;2007年
2 王亮;基于胞映射的数字控制系统量化效应分析与设计[D];华中科技大学;2008年
中国硕士学位论文全文数据库 前10条
1 白冰;基于数据处理中心的企业竞争情报系统研究[D];山东科技大学;2010年
2 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
3 石京;基于语义本体的垂直搜索引擎模型研究[D];大连海事大学;2011年
4 连惠杰;基于主题的教育信息定向采集系统[D];南京理工大学;2011年
5 易聪;基于Web挖掘的企业竞争情报系统构建研究[D];华南理工大学;2011年
6 卢凡;基于领域本体的主题爬虫系统研究与实现[D];电子科技大学;2011年
7 王晶;基于领域本体扩展查询的文本信息检索研究[D];东北石油大学;2011年
8 李丹丹;基于本体的知识表示及信息检索研究[D];西南交通大学;2011年
9 李春;基于本体的文本信息检索技术研究与实现[D];南京航空航天大学;2009年
10 杨智蛟;基于意义理解的问答系统设计与实现[D];华中科技大学;2010年
【同被引文献】
中国期刊全文数据库 前6条
1 康海燕;李飞娟;苏文杰;;基于问句表征的web智能问答系统[J];北京信息科技大学学报(自然科学版);2011年01期
2 龙夏;凌军;汤彪;方麟;;基于ISAPI过滤器的网页防篡改系统[J];合肥学院学报(自然科学版);2010年03期
3 沈凤仙;朱巧明;刘粉香;;改进的Web文本自适应过滤策略[J];计算机与现代化;2010年09期
4 黄萱菁,夏迎炬,吴立德;基于向量空间模型的文本过滤系统[J];软件学报;2003年03期
5 唐坚刚;魏然;;基于权重均值的不良网页过滤算法研究[J];计算机工程与设计;2008年05期
6 珠杰;罗潘;;基于HTML Parser的网页信息提取技术研究[J];西藏大学学报(自然科学版);2010年01期
【二级引证文献】
中国期刊全文数据库 前1条
1 康海燕;陈然;苑晓姣;李清华;;基于Android防火墙日志系统的研究与实现[J];北京信息科技大学学报(自然科学版);2012年04期
【二级参考文献】
中国期刊全文数据库 前7条
1 武成岗,焦文品,田启家,史忠植;基于本体论和多主体的信息检索服务器[J];计算机研究与发展;2001年06期
2 刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期
3 廖乐健,曹元大,李新颖;基于Ontology的信息抽取[J];计算机工程与应用;2002年23期
4 潘宇斌,陈跃新;基于Ontology的自然语言理解[J];计算技术与自动化;2003年04期
5 郑实福,刘挺,秦兵,李生;自动问答综述[J];中文信息学报;2002年06期
6 姜贤塔,陈根才;利用语料库技术的中文自动文摘系统[J];中文信息学报;1999年02期
7 何绍义;概念信息检索的理论与实践[J];情报学报;1995年02期
【相似文献】
中国期刊全文数据库 前10条
1 彭文滔;叶飞跃;李霞;员红娟;;信息抽取中基于DOM树的过滤器方法的研究[J];微计算机信息;2008年30期
2 杨鑫阁,冯岩,宋晓燕,刘文捷,王慧强;XML技术在J2EE中的应用[J];自动化技术与应用;2001年05期
3 孙荣胜,李志华,施明辉,徐天鹏;XML与汽车零部件信息采集系统的研究与实现[J];计算机应用;2002年02期
4 韩桂英,李锡祚;基于XML的网络课件标准化问题的研究与设计[J];微电子学与计算机;2002年11期
5 杨厚群;XML在ASP服务端的应用研究[J];计算机系统应用;2002年02期
6 卢方国,李卫华;使用SAX2分析XML文档[J];计算机与现代化;2003年09期
7 白连军,蒋式勤;XML在构建企业信息系统中的应用[J];微型电脑应用;2003年10期
8 孙霞,程宏斌;基于Java的DOM解析技术[J];计算机时代;2004年07期
9 杨敬伟;杨文柱;高悦;;基于DOM的Web信息抽取规则的构造与实现[J];河北大学学报(自然科学版);2007年02期
10 何成万,闵华清;一个基于Java和XML的Web应用软件开发模型研究[J];计算机应用;2001年S1期
中国重要会议论文全文数据库 前10条
1 Aymara Fernandez;;Complexation of Arsenite with Humic Acid in the Presence of Ferric Iron[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
2 封盛;张铭;;基于DOM树的半指导科技文献元数据自动抽取[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
3 周巍;孙冰;战立明;吕建华;王国仁;于戈;;基于DOM模型的XML查询处理器的设计与实现[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 王彦敏;卢刚;;基于PixelGrid实现DOM的快速更新[A];地理信息与物联网论坛暨江苏省测绘学会2010年学术年会论文集[C];2010年
5 周亚男;张思玉;陈景文;;DOM敏化抗抑郁药安非它酮间接光解机制研究[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
6 黄国城;孟凡刚;周忠波;李建;黄励晖;;河水DOM的生物转化机制研究[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
7 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
8 刘叶;蔡美芳;乔显亮;;畜禽粪便来源DOM对土壤吸附土霉素的影响[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
9 陈健;卢刚;;数字正射影像图的投影变换[A];江苏省测绘学会2007'学术年会论文集[C];2008年
10 陈健;卢刚;;数字正射影像图的投影变换[A];江苏省测绘学会2007年学术年会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 记者 向杰;微软最新IE Dom Oday漏洞曝光[N];科技日报;2010年
2 中国贸促会;多米尼加汽车零备件销售分析[N];中国民族报;2001年
3 顾晓红;“喜欢那种透明”[N];联合时报;2000年
4 本报记者 唐斌;在管理软件市场中淘金[N];计算机世界;2001年
5 李语实;桑塔纳 价格重组促销灵活[N];中国物资报;2000年
6 侯青;XML/EDI业务流程国际贸易B2B现状[N];国际商报;2001年
7 孙静;证券业竞争 技术先行[N];中国电脑教育报;2001年
8 本报记者 董明洁;Dom Perignon[N];21世纪经济报道;2010年
9 ;柬埔寨开发战争旅游[N];中国旅游报;2002年
10 北京天则经济研究所理事长 茅于轼教授;机构投资者急需建立信用[N];中国证券报;2002年
中国博士学位论文全文数据库 前7条
1 张玉涛;光照和DOM对水体中汞转化的影响机制及动力学研究[D];西南大学;2011年
2 周斌;河水漫溢对荒漠河岸林植被及土壤的影响[D];新疆大学;2011年
3 李光荣;面向虚拟企业的零件工艺信息系统关键技术研究[D];南京理工大学;2005年
4 魏亮亮;改良土壤含水层处理系统对溶解性有机物的去除效能[D];哈尔滨工业大学;2011年
5 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
6 赵萱;我国不同生态型湖泊沉积物有机质赋存形态及其与重金属相互作用研究[D];山东师范大学;2012年
7 姜蕾;有机质对除草剂扑草净环境行为的影响研究[D];南京农业大学;2011年
中国硕士学位论文全文数据库 前10条
1 连小刚;基于DOM的Web信息抽取系统设计与实现[D];华中科技大学;2009年
2 张文;一种新型原生XML数据库——MyNXD的设计与实现[D];华东师范大学;2006年
3 李娟娟;用三维荧光技术研究DOM在人工湿地中的降解及其与染料的结合作用[D];西南大学;2011年
4 岳珂;基于自动机的嵌入式HTML解析器的设计与实现[D];重庆大学;2008年
5 王鑫;基于线特征的DOM与DLG配准方法的研究[D];武汉大学;2005年
6 赵静;基于XML和多层结构理论的营养咨询系统的设计与实现[D];山东大学;2005年
7 姚跃;中职信息技术技能考核系统设计与实现[D];湖南师范大学;2007年
8 石倩;Web信息抽取规则及其学习算法[D];大连海事大学;2008年
9 曲杰涛;基于DOM的智能网页信息抽取技术研究[D];中国海洋大学;2009年
10 孟瑜;基于Schema验证的XML解析器中解析子系统的设计与实现[D];西安电子科技大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026