收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于Lucene的中文分词模块的设计和实现

罗宁  徐俊刚  郭洪韬  
【摘要】:基于当前最流行的全文检索引擎架构Lucene,文章设计并实现了一个中文分词模块。分词模块中的核心算法是基于字符串匹配与统计相结合的中文分词算法,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力。通过实验发现,该模块的分词准确率较高,分词速度有进一步的提升空间。下一步我们将通过多种改进措施,来完善该分词模块,最终构建出一个高效的中文全文检索系统。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 蓝永健;;基于Lucene的校园网垂直搜索引擎的设计与实现[J];广东教育学院学报;2009年03期
2 谢峰;刘洪星;;基于Lucene的Web站内搜索引擎的研究[J];电脑知识与技术;2008年04期
3 李瑞芳;杨娜;;主题搜索引擎的研究[J];微型机与应用;2009年19期
4 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期
5 胡继钧;;基于Lucene全文检索引擎的研究与实现[J];科技创新导报;2010年20期
6 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
7 蔡小艳;寇应展;沈巍;郑伟;;Nutch-0.9中JE中文分词的实现[J];科学技术与工程;2008年17期
8 索红光;孙鑫;;针对中文检索的Lucene改进策略[J];计算机应用与软件;2009年06期
9 向晖;郭一平;王亮;;基于Lucene的中文字典分词模块的设计与实现[J];现代图书情报技术;2006年08期
10 李颖;李志蜀;邓欢;;基于Lucene的中文分词方法设计与实现[J];四川大学学报(自然科学版);2008年05期
11 权聪敏;赵钊;文福安;;基于Lucene的智能答疑系统的研究与实现[J];郑州大学学报(理学版);2007年02期
12 张琳;陶振凯;;基于Lucene的全文检索系统的改进方法[J];沈阳理工大学学报;2008年04期
13 李海丰;;基于Lucene的企业搜索引擎研究及应用[J];电脑知识与技术;2009年04期
14 张民朝;;面向课程信息的专题搜索引擎的设计[J];制造业自动化;2011年06期
15 蔡小艳;寇应展;沈巍;郑伟;;汉语词法分析系统ICTCLAS在Nutch-0.9中的应用与实现[J];军械工程学院学报;2008年05期
16 胡涛;路红英;;基于Nutch的搜索引擎的研究[J];计算机时代;2007年01期
17 王继明;杨国林;;基于Lucene的中文文本分词[J];内蒙古工业大学学报(自然科学版);2007年03期
18 匡振国;倪宏;嵇智辉;刘磊;;一种基于Lucene的影片搜索引擎的研究和应用[J];计算机工程与应用;2008年29期
19 郑如滨;撒力;谢婷;;基于Heritrix与Lucene的垂直搜索引擎研究[J];电脑知识与技术;2008年29期
20 林晓丹;陆松年;;一种全文索引自动答疑系统的设计与实现[J];华侨大学学报(自然科学版);2009年02期
中国重要会议论文全文数据库 前10条
1 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
2 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
3 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
4 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 申兵一;巩青歌;;基于Lucene桌面搜索引擎系统的设计和实现[A];江苏省电子学会2010年学术年会论文集[C];2010年
8 李明宙;罗艳;王宗义;;Lucene全文检索引擎的研究及应用[A];广西计算机学会2010年学术年会论文集[C];2010年
9 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年
10 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前6条
1 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
2 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
3 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
4 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
5 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
6 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 冯斌;基于Lucene小型搜索引擎的研究与实现[D];武汉理工大学;2008年
2 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
3 张彬;基于lucene的搜索引擎[D];上海师范大学;2010年
4 杜先撰;基于Lucene全文索引系统设计与实现[D];南京大学;2011年
5 王冬坡;基于Lucene的主题搜索引擎的研究与实现[D];河北科技大学;2010年
6 周月红;基于Lucene的站内搜索引擎的设计与开发[D];华东理工大学;2011年
7 张伟;垂直搜索引擎设计与实现[D];西安电子科技大学;2008年
8 刘运佳;基于Lucene和Heririx构建搜索引擎的研究和示例实现[D];电子科技大学;2008年
9 高欣;基于Lucene的全文检索系统的研究与实现[D];天津师范大学;2010年
10 闻峥;基于Lucene的搜索引擎优化[D];北京交通大学;2011年
中国重要报纸全文数据库 前2条
1 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
2 高雪娟;企业搜索要为决策服务[N];中国计算机报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978