收藏本站
《计算机科学》 2010年03期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

中文新词识别技术综述

张海军  史树敏  朱朝勇  黄河燕  
【摘要】:新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因此任何相邻字符都有成词的可能性,这给新词提取过滤带来了很大困难;由于没有先验知识和统计数据,新词词性猜测一直是中文词性标注的技术瓶颈。详细分析了中文新词识别技术的研究现状,重点讨论了候选新词提取和词性猜测的研究方法与存在的主要问题,最后对新词识别研究方向进行了展望。

【参考文献】
中国期刊全文数据库 前5条
1 曹勇刚;曹羽中;金茂忠;刘超;;面向信息检索的自适应中文分词系统[J];软件学报;2006年03期
2 刘华;;一种快速获取领域新词语的新方法[J];中文信息学报;2006年05期
3 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
4 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇;面向Internet的中文新词语检测[J];中文信息学报;2004年06期
5 郑家恒,李文花;基于构词法的网络新词自动识别初探[J];山西大学学报(自然科学版);2002年02期
【共引文献】
中国期刊全文数据库 前10条
1 赵成龙,薛欣;基于WEB的智能答疑系统的设计与实现[J];安阳师范学院学报;2004年02期
2 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 胡彧;苏雪峰;;特定主题的相关概念挖掘研究与实现[J];电脑开发与应用;2007年02期
5 马颖华,王永成,苏贵洋;一种在汉语文本中抽取重复字串的快速算法[J];电子学报;2002年S1期
6 陈榕;自动分词、标引与智能检索在信访业务处理中的应用[J];福建电脑;2003年10期
7 刘挺,吴岩,王开铸;中文自动文摘系统CAAS的研究与实现[J];哈尔滨工业大学学报;1999年06期
8 黄东平,田芳;BBS信息过滤技术研究[J];长江大学学报(自然科学版);2004年01期
9 季永华,许华虎,沈敏,万杰;自动答疑系统的研究与实现[J];计算机工程与应用;2005年14期
10 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
中国博士学位论文全文数据库 前9条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
2 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
3 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
4 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
5 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
6 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
7 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
8 孙凌云;面向产品概念设计的专利地图技术研究[D];浙江大学;2008年
9 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
中国硕士学位论文全文数据库 前10条
1 王省;基地统计和规则的中文姓名识别系统的研制[D];大连理工大学;2000年
2 李朝阳;经济文献数据库计算机标引研究[D];南京农业大学;2000年
3 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
4 章成志;基于文本层次模型的Web概念挖掘研究[D];南京农业大学;2002年
5 李辉阳;面向CAI的简述文字判读技术及其应用研究[D];湘潭大学;2002年
6 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
7 宗士强;潜在语义索引在飞机故障案例检索的中应用[D];南京航空航天大学;2003年
8 陈乐;基于智能文本分类技术的素材管理软件的设计与开发[D];南京师范大学;2003年
9 杨明;面向空间数据的专题文本数据挖掘技术的研究[D];北京工业大学;2002年
10 钱揖丽;中文文本分词及词性标注自动校对方法研究[D];山西大学;2003年
【同被引文献】
中国期刊全文数据库 前10条
1 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
2 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
3 余战秋;中文分词技术及其应用初探[J];电脑知识与技术;2004年32期
4 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期
5 湛燕,陈昊,袁方,王熙照;基于中文文本分类的分词方法研究[J];计算机工程与应用;2003年23期
6 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
7 张滨,晏蒲柳,李文翔,夏德麟;基于汉语句模的中文分词算法[J];计算机工程;2004年01期
8 金瑜,陆启明,高峰;基于上下文相关的最大概率汉语自动分词算法[J];计算机工程;2004年16期
9 温滔,朱巧明,吕强;一种快速汉语分词算法[J];计算机工程;2004年19期
10 熊文新;宋柔;;信息检索用户查询语句的停用词过滤[J];计算机工程;2007年06期
中国博士学位论文全文数据库 前4条
1 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
2 刘晓梅;当代汉语新词语研究[D];厦门大学;2003年
3 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
4 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
中国硕士学位论文全文数据库 前6条
1 姜鹏;基于双数组的分词词典研究与实现[D];大连理工大学;2006年
2 张旭;一个基于词典与统计的中文分词算法[D];电子科技大学;2007年
3 崔世起;中文新词检测与分析[D];中国科学院研究生院(计算技术研究所);2006年
4 邹纲;中文新词语自动检测研究[D];中国科学院研究生院(计算技术研究所);2004年
5 邱明娟;论新词的发展[D];南京师范大学;2007年
6 刘婷;中文自动分词法在全文检索中的研究及应用[D];南京航空航天大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 苏菲,王丹力,戴国忠;基于标记的规则统计模型与未登录词识别算法[J];计算机工程与应用;2004年15期
4 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
5 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
6 韩客松,王永成,陈桂林;无词典高频字串快速提取和统计算法研究[J];中文信息学报;2001年02期
7 娄珽,宋柔,李卫亮,罗智勇;现代汉语分词系统通用接口设计与实现[J];中文信息学报;2001年05期
8 金翔宇,孙正兴,张福炎;一种中文文档的非受限无词典抽词方法[J];中文信息学报;2001年06期
9 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
10 杨尔弘;方莹;刘冬明;乔羽;;汉语自动分词和词性标注评测[J];中文信息学报;2006年01期
中国博士学位论文全文数据库 前2条
1 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
2 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 姜文斌;吴金星;乌日力嘎;那顺乌日图;刘群;;蒙古语有向图形态分析器的判别式词干词缀切分[J];中文信息学报;2011年04期
2 辛浩;;基于关联规则的中文姓名识别方法[J];宿州学院学报;2011年05期
3 张永兴;孙四明;张峰;;基于本体的信息检索系统研究[J];微计算机信息;2011年07期
4 刘兴林;郑启伦;马千里;;中文合成词识别及分词修正[J];计算机应用研究;2011年08期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
2 郝博一;夏云庆;郑方;;OPINAX:一个有效的产品属性挖掘系统[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 雷静;;汉语机构名的构成模式[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 李双龙;刘乐中;刘群;;利用单字碎片过滤改进汉语分词性能[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 沙芸;周俊武;张国英;;基于主题关键词的新闻去重算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 郭志立;;使用互信息辅助在篇章范围内识别命名实体[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 张云涛;龚玲;王永成;;识别中文文本中的未登录专有名词的类别[A];2007年中国智能自动化会议论文集[C];2007年
8 赵伟;王美艳;刘闯;;基于古汉语语料数据库词的划分方法研究与探索[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
9 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
10 计峰;高沫;邱锡鹏;黄萱菁;;中文机构名简称的自动生成研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前5条
1 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
2 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
3 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
4 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
5 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 国玮玮;基于网络资源的未登录词扩展研究[D];安徽大学;2012年
2 闻玉彪;一种基于组合模型的中文未登录词词性猜测方法[D];云南大学;2011年
3 都菁;基于论坛语料的未登录词自动识别新方法[D];西南大学;2010年
4 秦健;N-gram技术在中文词法分析中的应用研究[D];中国海洋大学;2009年
5 张鹏;木棉教育新闻平台关键技术的研究与实现[D];华南理工大学;2012年
6 张淑梅;词典与后缀数组相结合的中文分词[D];吉林大学;2006年
7 孔海霞;基于最大熵的汉语词性标注[D];大连理工大学;2007年
8 吕红良;基于大规模语料库的中文新词识别[D];大连理工大学;2008年
9 张卫;中文词性标注的研究与实现[D];南京师范大学;2007年
10 江慧娜;中文搜索引擎的关键技术研究[D];北京化工大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026