收藏本站
《合肥工业大学学报(自然科学版)》 2008年10期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种改进的中文分词歧义消除算法研究

许高建  胡学钢  路遥  王庆人  
【摘要】:随着信息技术的飞快发展,今天的互联网上信息已成爆炸式增长,文本挖掘技术成为目前研究的热点。文章概述了中文分词的算法,通过介绍歧义存在的种类,分析了分词结果歧义性存在的必然性;在中文分词基础上,提出了一种采用"动词优先"的歧义消除算法,使分词结果最大程度地消除歧义,从而提高了分词的精度,为文本挖掘之后的环节打下了基础。

【参考文献】
中国期刊全文数据库 前2条
1 郭辉,苏中义,王文 ,崔骏;一种改进的MM分词算法[J];微型电脑应用;2002年01期
2 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
【共引文献】
中国期刊全文数据库 前10条
1 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报(自然科学版);1998年01期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 王秀坤,李政,简幼良,刘剑;基于Hash方法的机器翻译词典的组织与构造[J];大连理工大学学报;1996年03期
4 亢临生,张永奎;利用分词属性解决歧义切分[J];电脑开发与应用;1994年04期
5 吴静,蔡砥,王铮;地理信息系统中自然语言查询的分词处理与应用[J];地球信息科学;2005年03期
6 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报;2003年02期
7 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
8 王一蕾;吴英杰;;基于数据量的文本分词算法选取的研究[J];福建电脑;2006年09期
9 苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期
10 王挺;麦范金;刘忠;;自然语言处理及其应用前景的研究[J];桂林航天工业高等专科学校学报;2006年04期
中国重要会议论文全文数据库 前9条
1 刘建毅;王菁华;王枞;;领域语义语法的统计生成[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
2 侯敏;;汉语自动分析中的若干问题与对策[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 隋岩;张普;;基于“动态流通语料库”进行“有效字符串”提取的初步研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 侯敏;陈琼璜;初田天;李湛;王瑜;叶立;;汉语自动分词中的上下文相关歧义字段(CSAS)研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 邹红建;杨尔弘;;面向对外汉语报刊教学的文本难易度分类[A];第三届学生计算语言学研讨会论文集[C];2006年
6 金东日;;在朝汉机器翻译上出现转换的难点[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 陈毅恒;秦兵;刘挺;林建国;李生;;基于错误预测的文本分类方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 王智超;季铎;蔡东风;张桂平;;文本聚类中基于知网的特征抽取方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 钟茂生;;自然语言中的对象及其处理[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 赵章界;短语结构制导的范畴表达式演算[D];中国科学院研究生院(计算技术研究所);2006年
4 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
5 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
6 许中卫;基于双向搜索的ILP算法构建汉语语义自动切分系统[D];安徽大学;2006年
7 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
8 雷震;基于事件的新闻报道分析技术研究[D];国防科学技术大学;2006年
9 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
10 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 李朝阳;经济文献数据库计算机标引研究[D];南京农业大学;2000年
2 唐志文;搜索引擎中数据对象研究[D];湖南大学;2001年
3 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年
4 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
5 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
6 马东坡;Internet中文智能搜索引擎汉语自动分词系统设计[D];广西师范大学;2002年
7 高雷;网络智能过滤系统的设计与实现[D];广东工业大学;2003年
8 许林杰;中文文本分词研究[D];山东师范大学;2003年
9 刘军;基于论点倾向的网络信息内容实时分析研究[D];四川大学;2003年
10 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
【二级参考文献】
中国期刊全文数据库 前7条
1 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
2 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
3 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
4 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
5 骆正清,陈增武,胡上序;一种改进的MM分词方法的算法设计[J];中文信息学报;1996年03期
6 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期
7 郭祥昊,钟义信,杨丽;基于两字词簇的汉语快速自动分词算法[J];情报学报;1998年05期
【相似文献】
中国期刊全文数据库 前10条
1 李堂秋;用大规模并行网络模型同时解决中文分词和语法分析[J];厦门大学学报(自然科学版);1990年02期
2 黄居仁,陈克健,陈凤仪,魏文真,张丽丽;《资讯处理用中文分词规范》设计理念及规范内容[J];语言文字应用;1997年01期
3 王勤池,乔建行;数字化图书馆检索系统的现状与发展[J];情报科学;1998年06期
4 ;IBM扩大商务情报合作[J];每周电脑报;1998年11期
5 马颂德,王珏;智能信息处理与知识挖掘[J];世界科技研究与发展;1999年06期
6 吴健,杜林;信息检索与文本挖掘[J];中国计算机用户;1999年43期
7 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报(自然科学版);2000年03期
8 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
9 邹海山,吴勇,吴月珠,陈阵;中文搜索引擎中的中文信息处理技术[J];计算机应用研究;2000年12期
10 赵慧勤;基于因特网的信息检索特点与发展趋势[J];情报理论与实践;2000年05期
中国重要会议论文全文数据库 前10条
1 刘俊;张益肇;;基于统计的中文姓名提取方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年
2 曲维光;;解决汉语自动分词的方法选择[A];第一届学生计算语言学研讨会论文集[C];2002年
3 徐志明;揭春雨;Jonathan ebster;;一种自适应概率语言模型的训练方法及其应用于中文分词[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 陶晓鹏;周水庚;;无辅助数据的中文分词方法(英文)[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
5 陈丽江;;ACL-SIGHAN第一届国际中文分词竞赛评述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 陈林;王晓华;李殿赟;文俊浩;;基于Web的自增模式文本挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
7 陈林;王晓华;李殿赟;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年
8 苏贵洋 ;李建华 ;马颖华;;XML统一文本自动处理描述接口[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 王晔;黄上腾;;基于n-gram相邻字的中文文本特征提取算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 周国民;丘耘;郑彦妍;曾枝连;樊景超;;基于SDD算法的特定网页采集技术[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 计算机世界网 孙定;初探知识管理[N];计算机世界;2001年
2 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
3 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
4 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
5 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
6 丁鸿;百度掀起财富浪潮 中国互联网不再“青涩”[N];中国工业报;2005年
7 王翌;互联网2005:个性化生存[N];计算机世界;2005年
8 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
9 本报记者 于翔;科学“占卜”不是神话[N];网络世界;2005年
10 王宾;加速争夺中国搜索市场[N];北京商报;2006年
中国博士学位论文全文数据库 前10条
1 朱建生;基于知识管理的现代办公信息系统的研究[D];铁道部科学研究院;2002年
2 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
3 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
4 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
5 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
6 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
7 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
8 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年
9 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
10 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
中国硕士学位论文全文数据库 前10条
1 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
2 陈红英;Internet信息过滤Agent的研究和实现[D];广东工业大学;2002年
3 于长泓;基于Web方式的知识管理系统技术研究与应用[D];大连海事大学;2002年
4 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
5 陈乐;基于智能文本分类技术的素材管理软件的设计与开发[D];南京师范大学;2003年
6 罗强;基于粗糙集理论的知识发现在web文本挖掘上的应用研究[D];广西大学;2003年
7 王汉萍;粗糙集理论在文本挖掘的分类算法中的应用研究[D];中国海洋大学;2003年
8 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
9 翟静;可扩展的文本分类系统的核心API的设计与实现[D];四川大学;2003年
10 胡蓉;中文Web文档倾向性自动分类研究[D];四川大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026