收藏本站
《情报科学》 2006年06期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

全文检索搜索引擎中文信息处理技术研究

唐培丽  胡明  解飞  刘钢  
【摘要】:本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求。

【引证文献】
中国期刊全文数据库 前4条
1 王龙义;李仁旺;;基于全信息管理的工程材料数据库系统[J];计算机工程;2008年17期
2 赵源;;基于最大匹配的中文分词改进算法研究[J];科技信息;2010年35期
3 陈呈超;秦勃;;基于学术论文质量模型的检索排序算法研究[J];中国海洋大学学报(自然科学版);2008年01期
4 周彩兰;冯斌;;Web数据挖掘在搜索引擎中的应用[J];软件导刊;2007年17期
中国硕士学位论文全文数据库 前9条
1 陈利东;宁波市数字图书馆若干关键技术的研究与应用[D];浙江工业大学;2010年
2 陈尚安;林业企业黄页Deep Web数据集成研究[D];北京林业大学;2012年
3 黄杰;基于Lucene的全文检索系统模型的研究[D];暨南大学;2007年
4 李武装;基于Ajax与语义的企业搜索引擎的研究与实现[D];国防科学技术大学;2007年
5 吴兵华;基于深度网络的信息检索模型研究[D];武汉理工大学;2008年
6 张艳;Web挖掘在搜索引擎个性化中的应用研究[D];合肥工业大学;2008年
7 李蕾;主动服务中构件库的组织与检索方法研究[D];武汉理工大学;2009年
8 杨娜;基于lucene的轻量级全文检索系统模型研究[D];郑州大学;2009年
9 曾旭;全文检索引擎应用于邮件的设计与实现[D];电子科技大学;2010年
【参考文献】
中国期刊全文数据库 前8条
1 陈燕娜,邵志清;基于全文搜索的中文搜索引擎设计技术[J];计算机工程与应用;2002年17期
2 彭洪汇;林作铨;;Internet上的搜索引擎和元搜索引擎[J];计算机科学;2002年09期
3 吴栋,滕育平;中文信息检索引擎中的分词与检索技术[J];计算机应用;2004年07期
4 杨广翔,俞宁,谌莉;搜索引擎结果的重排序方法[J];计算机应用;2005年02期
5 韩客松,王永成,陈桂林;汉语语言的无词典分词模型系统[J];计算机应用研究;1999年10期
6 邹海山,吴勇,吴月珠,陈阵;中文搜索引擎中的中文信息处理技术[J];计算机应用研究;2000年12期
7 曹倩,丁艳,王超,潘金贵;汉语自动分词研究及其在信息检索中的应用[J];计算机应用研究;2004年05期
8 郭辉,苏中义,王文 ,崔骏;一种改进的MM分词算法[J];微型电脑应用;2002年01期
【共引文献】
中国期刊全文数据库 前10条
1 王正;陆余良;刘金红;施凡;;基于Lucene的互联网文献信息检索系统的研究[J];安徽大学学报(自然科学版);2009年05期
2 唐培丽,王树明,胡明;基于语义的汉语文献主题词提取算法研究[J];吉林大学学报(信息科学版);2005年05期
3 冯哲;孙吉贵;张长胜;王岩;;汉语语音合成的研究进展[J];吉林大学学报(信息科学版);2007年02期
4 葛宇;梁静;陈晓敏;;搜索引擎系统中热点问题的探讨[J];成都电子机械高等专科学校学报;2009年04期
5 肖红;刘淑华;;一种文本多级分类方法研究[J];长江大学学报(自然科学版)理工卷;2008年02期
6 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
7 谢红薇;王栋;;基于Web文本挖掘中的一种中文分词算法研究[J];电脑开发与应用;2007年07期
8 郑志波;;搜索器的设计与实现[J];电脑知识与技术(学术交流);2007年01期
9 陈晓柱;曾莹;;自动分词在智能答疑系统中的作用[J];电脑知识与技术(学术交流);2007年11期
10 郭屹;;对中文自动分词机制的研究和改进[J];电脑知识与技术;2008年07期
中国重要会议论文全文数据库 前5条
1 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 柏桂荣;章勇;;基于RSS的用户兴趣模型研究[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
3 栗振江;杨洋;李丽;;智能问答系统[A];2011年全国通信安全学术会议论文集[C];2011年
4 齐攀;陈晓云;;一种基于统计信息的无字典中文文本特征提取算法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 张玉连;张敏;张波;;一种无词典分词方法的分析与研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国博士学位论文全文数据库 前10条
1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
2 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
3 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
4 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
5 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
6 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
7 乔林;基于多关键词检索的企业竞争情报搜集方法研究[D];中国科学技术大学;2006年
8 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
9 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
10 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
3 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
4 冯晶晶;面向软件测试领域的自动问答系统[D];河南理工大学;2010年
5 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
6 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
7 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
8 林渌;基于新闻主题模型的热点工作挖掘系统[D];浙江大学;2011年
9 陈雅芳;中文文本分类方法研究[D];浙江大学;2010年
10 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 舒坚;郑诚;陈振;;基于关联分类方法的Web使用挖掘研究[J];安徽大学学报(自然科学版);2006年02期
2 余爱民;;关联挖掘在Deep Web查询中的研究与应用[J];安庆师范学院学报(自然科学版);2006年01期
3 高迎,王丽君,王锡钢;Simutem:一个中文信息检索系统[J];鞍山师范学院学报;2001年03期
4 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
5 陈鹏;刘烈宏;;深度web资源搜索关键技术[J];北京航空航天大学学报;2009年01期
6 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
7 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
8 赵静;个性化信息检索及功能模型[J];图书与情报;2004年01期
9 王建红;中国黄页:“钱景”广阔 市场混乱[J];出版参考;2004年34期
10 杨文安,陈行益;“元数据模型”在数据提取中的实现[J];吉林大学学报(信息科学版);2005年01期
中国重要报纸全文数据库 前1条
1 何清 史忠植 王伟;[N];计算机世界;2006年
中国博士学位论文全文数据库 前1条
1 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前7条
1 郭琰;元搜索引擎的关键技术研究及系统实现[D];南京理工大学;2002年
2 马骏;基于Web技术的工程材料数据库开发与研究[D];四川大学;2004年
3 黄波;主题搜索引擎的研究与应用[D];成都理工大学;2007年
4 陈洪猛;全文检索技术的研究与实现[D];北京工业大学;2008年
5 杨虎;面向海量短文本去重技术的研究与实现[D];国防科学技术大学;2007年
6 吴兵华;基于深度网络的信息检索模型研究[D];武汉理工大学;2008年
7 陈佳佳;Deep Web数据集成研究及其在购书领域中的应用[D];暨南大学;2010年
【二级引证文献】
中国期刊全文数据库 前10条
1 张东振;张明;;基于XML的站内检索系统[J];电脑知识与技术;2010年02期
2 匡振国;倪宏;嵇智辉;刘磊;;一种基于Lucene的影片搜索引擎的研究和应用[J];计算机工程与应用;2008年29期
3 刘飞;高红艳;;基于数据挖掘的Web信息检索的研究[J];江西科学;2008年02期
4 江婕;李建民;曾勍炜;;基于模式推荐的个性化搜索引擎研究[J];计算机与现代化;2010年05期
5 江婕;李建民;曾勍炜;;基于用户反馈的个性化搜索引擎的研究[J];计算机与现代化;2010年06期
6 罗小芬;丁璐;;运用科学发展观来指导高校学术论文的质量评估工作[J];科技情报开发与经济;2010年08期
7 刘芳;施进发;陆长德;;基于GIS面向LCA的产品材料信息管理系统建构[J];南京航空航天大学学报;2011年01期
8 许建豪;;基于电子商务的精确搜索引擎的研究与实现[J];南宁职业技术学院学报;2011年04期
9 李芳;汪江桦;;基于检索排序新进展研究综述[J];情报科学;2012年03期
10 徐东风;彭红星;廖俊杰;;基于Java的文档格式检查技术的研究及其应用[J];计算机工程与设计;2010年19期
中国重要会议论文全文数据库 前1条
1 陈呈超;于卫;于国艺;;山东省科技期刊联盟网络平台研究[A];山东省重点学术研究成果(2008)[C];2009年
中国硕士学位论文全文数据库 前10条
1 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
2 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
3 张立;文本搜索引擎的探究与设计[D];华南理工大学;2011年
4 李爱贞;基于Lucene的毕业论文库全文检索系统的设计与实现[D];中国海洋大学;2011年
5 武毅;基于Lucene.Net的全文检索研究与应用[D];国防科学技术大学;2011年
6 门瑞;高质量个性化论文推荐系统研究[D];天津大学;2012年
7 许建豪;打折商品搜索引擎的设计与实现[D];广西大学;2011年
8 郑金洪;企业信息搜索引擎的设计与实现[D];复旦大学;2011年
9 王乔;基于动态全息产品模型的桥式起重机桥架快速响应设计系统研究[D];中北大学;2012年
10 赵旭;搜索引擎关键技术研究及性能优化[D];江南大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
2 林彤,江志军;Internet的搜索引擎[J];计算机工程与应用;2000年05期
3 蒋澄,马范援,蒋思杰;中英文WWW搜索引擎的信息处理[J];计算机工程;1999年04期
4 严威,赵政;开发中文搜索引擎汉语处理的关键技术[J];计算机工程;1999年06期
5 刁倩,张惠惠,王永成;Internet上的英文搜索引擎[J];计算机工程;1999年07期
6 丁承,邵志清;基于字表的中文搜索引擎分词系统的设计与实现[J];计算机工程;2001年02期
7 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
8 姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期
9 骆正清,陈增武,胡上序;一种改进的MM分词方法的算法设计[J];中文信息学报;1996年03期
10 沈达阳,孙茂松,黄昌宁;汉语分词系统中的信息集成和最佳路径搜索方法[J];中文信息学报;1997年02期
【相似文献】
中国期刊全文数据库 前10条
1 胡继钧;;基于Lucene全文检索引擎的研究与实现[J];科技创新导报;2010年20期
2 翟晓华;孙炜;张路金;;多站点信息发布平台的全文检索技术[J];微计算机信息;2008年09期
3 满鹏;;全文检索的原理与实现探讨[J];现代情报;2009年07期
4 许敏;周伟灿;;CAD电子图管理系统中全文检索的研究[J];微计算机信息;2006年19期
5 马志强;刘利民;苏依拉;马瑞明;;基于Lucene的站内搜索引擎研究[J];内蒙古工业大学学报(自然科学版);2009年01期
6 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期
7 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期
8 李静媛;浅谈搜索引擎应用技术[J];天津市财贸管理干部学院学报;2005年01期
9 王华栋;饶培伦;;基于搜索引擎的中文分词评估方法[J];情报科学;2007年01期
10 芦淑娟;;WebGIS搜索引擎系统研究与实现[J];软件导刊;2007年05期
中国重要会议论文全文数据库 前10条
1 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
2 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
3 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
4 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
7 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
8 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
9 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
10 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
中国重要报纸全文数据库 前10条
1 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
2 姜蕊;过半用户难辨百度雅虎[N];中国商报;2006年
3 李一鑫;搜索排名的红与黑[N];财经时报;2007年
4 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
5 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
6 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
7 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
8 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
9 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
10 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
中国博士学位论文全文数据库 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
2 高磊;基于LUCENE的搜索引擎研究与实现[D];武汉理工大学;2007年
3 谢骋超;基于语义的数据库全文检索系统[D];浙江大学;2006年
4 闫继钢;搜索引擎的研究与实现[D];兰州大学;2009年
5 苏亮;基于多级Hash分词的全文搜索引擎的研究[D];北京邮电大学;2008年
6 冯斌;基于Lucene小型搜索引擎的研究与实现[D];武汉理工大学;2008年
7 全俊林;面向OA系统的个性化搜索引擎设计与实现[D];武汉理工大学;2007年
8 刘宏伟;搜索引擎中中文WEB文本自动分类研究[D];暨南大学;2007年
9 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
10 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026