收藏本站
《吉林大学学报(理学版)》 2006年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

高性能网页索引器JU_Indexer的实现

赫枫龄  左万利  张雪松  
【摘要】:高性能网页索引器JU_Indexer用倒排索引表存储网页索引数据,以多线程并行的方式对网页建立索引数据,采用经过优化的检索算法实现用户的查询.首先给出了JU_Indexer的系统框架,然后描述了索引数据在JU_Indexer中的存储结构、建立网页索引的算法、以及实现用户查询的检索算法.实验结果表明,JU_Indexer能在毫秒级的时间内完成用户的查询,它采用的经过优化的词组检索算法缩短了词组的检索时间.

【引证文献】
中国期刊全文数据库 前4条
1 王冬;左万利;赫枫龄;彭涛;张长利;;一种增量倒排索引结构的设计与实现[J];吉林大学学报(理学版);2007年06期
2 闫亮;李先国;;基于网页特征关键词的近似检测算法[J];科学技术与工程;2009年04期
3 王路芳;张虎;;一种面向搜索引擎的基于集合模型的搜索算法[J];山西农业大学学报(自然科学版);2009年06期
4 杜海刚;李先国;;一种基于关键词的近似网页检测算法[J];微计算机应用;2008年02期
中国博士学位论文全文数据库 前1条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前2条
1 洪田玉;一种开放式高性能全文检索平台的研究与实现[D];中南大学;2009年
2 陈再兴;全功能检索系统搜索引擎设计[D];湖北工业大学;2009年
【参考文献】
中国期刊全文数据库 前2条
1 赫枫龄,陶文学,李凯,周力,左万利;新一代网络搜索引擎系统CHINA_VIVI的实现[J];吉林大学学报(理学版);2003年02期
2 张长利,赫枫龄,左万利;一种基于后缀数组的无词典分词方法[J];吉林大学学报(理学版);2004年04期
【共引文献】
中国期刊全文数据库 前10条
1 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
2 陈华昌;任仲晟;;一种高效的广义后缀数组构造算法[J];福建电脑;2007年09期
3 孙乐;方自金;;基于互联网的信息采集系统的设计与实现[J];河北大学成人教育学院学报;2010年04期
4 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
5 边际;;搜索引擎的现状和发展策略[J];商业经济;2009年12期
6 赫枫龄,左万利;用有向图法解决网页爬行中循环链接问题[J];吉林大学学报(理学版);2004年03期
7 张长利,赫枫龄,左万利;一种基于后缀数组的无词典分词方法[J];吉林大学学报(理学版);2004年04期
8 翟凤文;赫枫龄;左万利;;基于统计规则的交集型歧义处理方法[J];吉林大学学报(理学版);2006年02期
9 王冬;左万利;赫枫龄;彭涛;张长利;;一种增量倒排索引结构的设计与实现[J];吉林大学学报(理学版);2007年06期
10 姜孝军;苏顺亭;王庆艳;;Web挖掘技术在搜索引擎中的应用与实现[J];吉林工程技术师范学院学报;2006年06期
中国重要会议论文全文数据库 前1条
1 郭鸿志;陈清才;康永燕;王晓龙;;一种基于网站特征识别的搜索引擎排序算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前1条
1 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
中国硕士学位论文全文数据库 前10条
1 王慧;最大熵模型的语义句法分析在问答系统中的应用研究[D];大连交通大学;2010年
2 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
3 陈潇;油脂企业故障信息管理与诊断系统设计与实现[D];西安电子科技大学;2009年
4 刘京城;竞争对手网站商业情报挖掘[D];安徽大学;2011年
5 徐建;基于全基因组的DNA序列词语挖掘[D];哈尔滨工业大学;2011年
6 曾欢;数据库全文检索方法研究及其应用[D];大连理工大学;2011年
7 王茜;基于字符串匹配的中英文混合分词技术研究[D];四川师范大学;2011年
8 赵立刚;搜索引擎的研究与设计[D];吉林大学;2005年
9 翟凤文;统计与字典相结合的中文分词[D];吉林大学;2005年
10 吴炜;基于用户日志的信息检索研究[D];同济大学;2006年
【同被引文献】
中国期刊全文数据库 前10条
1 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
2 张利彪,周春光,刘小华,马铭;粒子群算法在求解优化问题中的应用[J];吉林大学学报(信息科学版);2005年04期
3 王红梅,朱洪秀,王凌;对中文搜索引擎未来发展的探讨[J];东北电力学院学报;2001年04期
4 张志锋;刘育熙;邓璐娟;梁树军;;基于压缩后缀数组的搜索引擎技术[J];电脑开发与应用;2007年03期
5 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期
6 韩立新;对搜索引擎中评分方法的研究[J];电子学报;2005年11期
7 朱小娟;陈特放;;词频统计中文分词技术的研究[J];仪器仪表用户;2007年03期
8 徐小龙;王汝传;;基于智能Agent的多维权值信息检索模型[J];电子与信息学报;2008年02期
9 杨维,李歧强;粒子群优化算法综述[J];中国工程科学;2004年05期
10 雷鹏;;数据挖掘技术在统计学上的应用[J];硅谷;2008年04期
中国重要会议论文全文数据库 前1条
1 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前1条
1 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前4条
1 夏洪斌;基于知识分词算法的病案全文检索系统[D];第二军医大学;2004年
2 黄晓彤;高可靠性海量公安基础数据查询分析系统的设计与实现[D];同济大学;2007年
3 张秉强;数据库优化技术在海量数据下的研究与应用[D];同济大学;2007年
4 罗丽俊;中文信息处理中若干技术的研究与实现[D];辽宁科技大学;2008年
【二级引证文献】
中国期刊全文数据库 前10条
1 郎凤举;;HTMLParser提取网页超链接研究[J];电脑编程技巧与维护;2010年02期
2 李文;洪亲;滕忠坚;石兆英;;一种由B+树实现的倒排索引[J];电脑知识与技术;2011年08期
3 黄轩;;辛亥革命史主题爬虫的设计与实现[J];电脑知识与技术;2011年13期
4 王树文;郑阔实;陈竟博;;面向教育主题的垂直搜索引擎的设计与实现[J];长春师范学院学报;2013年04期
5 辛玉玲;;搜索引擎相关技术研究概述[J];舰船电子工程;2008年10期
6 陈建国;;基于Web结构的网站新闻采集系统的设计与实现[J];井冈山大学学报(自然科学版);2012年02期
7 余静;刘万军;;基于网页分块的主题爬虫研究[J];计算机与信息技术;2008年10期
8 魏唯;欧阳丹彤;吕帅;殷明浩;;一种多目标增量启发式搜索算法[J];吉林大学学报(理学版);2009年04期
9 王二红;寿永熙;马志强;李静;;多线程搜索器的设计与实现[J];内蒙古农业大学学报(自然科学版);2010年03期
10 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期
中国重要会议论文全文数据库 前1条
1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
中国博士学位论文全文数据库 前4条
1 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
2 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
3 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
4 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 卢革超;基于本体的主题搜索引擎技术研究[D];吉林大学;2011年
2 戴支荣;基于Lucene的面向主题信息搜索系统的关键技术分析及应用[D];武汉理工大学;2011年
3 刘欢;职位匹配系统的设计与实现[D];华东师范大学;2011年
4 吴宗坤;基于Fuse的资源搜索文件系统设计与实现[D];华南理工大学;2011年
5 李静;基于改进向量空间模型的网络信息检索研究[D];北京邮电大学;2010年
6 郎凤举;基于热点网站内容分析的超链接提取研究[D];中国海洋大学;2010年
7 张丽娟;基于Lucene的面向主题爬行搜索引擎的应用研究[D];安徽理工大学;2011年
8 冯波;企业网站实施搜索引擎优化的基本策略研究[D];哈尔滨工业大学;2011年
9 邢敏玲;基于网页分块的主题爬虫方法研究[D];重庆大学;2011年
10 苏晓辉;构件垂直搜索引擎的关键技术研究[D];华中科技大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
3 傅赛香,袁鼎荣,黄柏雄,钟智;基于统计的无词典分词方法[J];广西科学院学报;2002年04期
4 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
5 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
6 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
7 董险峰,邢罡,马驷良;相连字符的分割算法[J];吉林大学学报(理学版);2003年01期
8 赫枫龄,陶文学,李凯,周力,左万利;新一代网络搜索引擎系统CHINA_VIVI的实现[J];吉林大学学报(理学版);2003年02期
9 胥桂仙,苏筱蔚,陈淑艳;中文文本挖掘中的无词典分词的算法及其应用[J];吉林工学院学报(自然科学版);2002年01期
10 黄德根,杨元生,王省,张艳丽,钟万勰;基于统计方法的中文姓名识别[J];中文信息学报;2001年02期
【相似文献】
中国期刊全文数据库 前10条
1 王莹;;网络搜索引擎使用技巧[J];河南科技;2010年14期
2 陈文莉;;目录学的传统与继承——基于网络信息技术的认识[J];图书馆理论与实践;2009年04期
3 刘芳,阎红卫;并行网络搜索引擎[J];微电脑世界;1999年21期
4 ;谷歌对决微软争夺搜索引擎市场[J];中国新通信;2008年04期
5 ;寰球传媒[J];现代视听;2010年02期
6 ;Yahoo!DEC情缘已尽[J];每周电脑报;1998年21期
7 ;IDT推出业界最高性能250MSPS网络搜索引擎[J];电子工程师;2003年08期
8 ;IPv6引爆商机 IDT第四代网络搜索引擎实现三大创新[J];电子测试;2004年10期
9 ;网络搜索引擎在下一代存储交换机中大有作为[J];世界电子元器件;2003年08期
10 宋立军;;浅论网络数学搜索中的数学查询语言与索引的研究[J];科技创新导报;2011年21期
中国重要会议论文全文数据库 前10条
1 李素建;李芸;纪鹭宁;徐睿峰;;词典匹配和串频统计相结合在自动主题分析中的应用[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 吴颖;;对网络搜索引擎辅助翻译的反思[A];全国首届翻译硕士(MTI)教育与翻译产业研讨会论文集[C];2009年
3 赵恩彪;隋金君;王自亮;李智;;电荷法测量粉尘浓度技术研究[A];第八届全国采矿学术会议论文集[C];2009年
4 张靖;赵明清;;粗糙集理论在建立线性计量经济模型中的应用[A];中国企业运筹学学术交流大会论文集[C];2005年
5 肖诗斌;孙丽华;王弘尉;施水才;;指标信息抽取技术的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 丁春;;论自由词向关键词转换的意义[A];学报编辑论丛(第十二集)[C];2004年
7 齐敏霞;左廷荣;于晓明;;寿光商务小区暖通空调节能设计[A];全国暖通空调制冷2008年学术年会资料集[C];2008年
8 魏瑞斌;张淑芳;;网上中文档案信息资源现状、问题及对策[A];中国档案学会第六次全国档案学术讨论会论文集[C];2002年
9 李旭;余靖;;一种基于提取指纹方法的数字文档拷贝检测模型[A];2005年全国理论计算机科学学术年会论文集[C];2005年
10 陈双玲;宋青霞;;为何文本文件归档推荐采用XML格式[A];齐鲁档案论坛——山东省档案学会2009年学术年会会刊[C];2009年
中国重要报纸全文数据库 前10条
1 本报记者 杨杰 陈杨 友珍 李萍;政协委员情牵民生[N];甘孜日报(汉文);2006年
2 中共德格县委宣传部 德格县教育体育局;雪域格桑花[N];甘孜日报(汉文);2006年
3 中共德格县委宣传部 德格县教育体育局;雪域格桑花[N];甘孜日报(汉文);2006年
4 赵福军;关键词广告市场需规范[N];中国计算机报;2006年
5 杜勇;福建加强信访抓住“关键词”[N];人民公安报;2007年
6 记者 郑丽虹;做个大年忙煞半年[N];深圳特区报;2006年
7 杨继祥;好事连连:农民日子越过越红火[N];厦门日报;2006年
8 记者 张树忠;“大众”“教育”“品牌”成关键词[N];中国新闻出版报;2006年
9 本版编辑 郭小明 李晓明 陈忠林 李顺德;网络与知识产权刑法立法的完善[N];中国新闻出版报;2007年
10 梁峰;品质与服务:中国远教关键词[N];国际商报;2007年
中国博士学位论文全文数据库 前10条
1 朱明杰;互联网搜索系统中的高性能查询问题研究[D];中国科学技术大学;2009年
2 李赟;基于中文维基百科的语义知识挖掘相关研究[D];北京邮电大学;2009年
3 李新叶;基于XML文档结构语义的信息检索方法与应用研究[D];华北电力大学(河北);2009年
4 余振山;自然语言文本中数字水印的设计与研究[D];中国科学技术大学;2009年
5 陈荦;分布式地理空间数据服务集成技术研究[D];国防科学技术大学;2005年
6 严亚兰;基于语义Web的知识处理研究[D];武汉大学;2005年
7 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
8 李炳龙;文档碎片取证关键技术研究[D];解放军信息工程大学;2007年
9 杨波;基于内容的文档图象压缩方法研究[D];重庆大学;2002年
10 孙伟;香叶天竺葵精油的植物生物学及其药理研究[D];华东师范大学;2005年
中国硕士学位论文全文数据库 前10条
1 张婷;分布式网络搜索引擎的研究与实现[D];解放军信息工程大学;2011年
2 郭晓刚;个性化网络搜索引擎研究[D];吉林大学;2010年
3 史丛;网络搜索引擎的相关技术研究[D];山东科技大学;2011年
4 李一;网络动态专业搜索引擎构建方法的研究[D];东北师范大学;2008年
5 徐晓丹;中文Web文档自动摘要系统的研究[D];国防科学技术大学;2005年
6 刘树林;基于领域本体信息检索的研究及其实现[D];东北师范大学;2009年
7 尤波;垂直搜索中XML索引及页面排序技术研究[D];哈尔滨工程大学;2009年
8 郑海树;面向语音检索的汉语关键词识别技术研究及应用[D];浙江大学;2005年
9 赵轩;基于状态检测的硬件防火墙实现技术研究[D];国防科学技术大学;2004年
10 炎士涛;基于词频统计的文本分类模型研究[D];上海师范大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026