收藏本站
《电子学报》 2008年09期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于小规模尾字特征的中文命名实体识别研究

冯元勇  孙乐  张大鲲  李文波  
【摘要】:本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该系统在我国863简体命名实体识别评测语料上专名(人名、地名和机构名)总体F1值达88.76%,超过当年最佳系统8.63个百分点.在SIGHAN 2006命名实体识别语料上的结果也居于前列.
【作者单位】中国科学院软件研究所基础软件工程研究中心;
【关键词】中文命名实体识别 小规模尾字特征 条件随机场 自然语言处理 机器学习
【基金】:国家自然科学基金(No.60773027,60736044) 863重点项目(No.2006AA010108) 国家242项目计划(No.2006A40)
【分类号】:TP391.1
【正文快照】:
1引言命名实体识别是计算机理解文本信息的基础.命名实体(Named Entity)指那些能够明确指称外部世界某一对象的名词或名词短语.命名实体识别(Named EntityRecognition,NER)就是确定文档中的人名、地名和机构名等文本片段并识别其类型的过程.它是信息抽取、问答系统、机器翻译

【参考文献】
中国期刊全文数据库 前2条
1 姜维;王晓龙;关毅;赵健;;基于多知识源的中文词法分析系统[J];计算机学报;2007年01期
2 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[J];通信学报;2006年02期
【共引文献】
中国重要会议论文全文数据库 前4条
1 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 肖诗斌;孙丽华;王弘尉;施水才;;指标信息抽取技术的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 高嵩;周强;;一种中文分词后处理反馈算法[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前3条
1 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
2 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
3 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前6条
1 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
2 武玉洲;汉语文本人名识别改进方法研究[D];北京语言大学;2007年
3 倪茂树;基于语义理解的观点评论挖掘研究[D];大连理工大学;2007年
4 赵俊芹;顾客评论信息抽取算法的研究[D];重庆大学;2007年
5 徐照财;基于Agent的专题搜索引擎爬虫的研究[D];江苏大学;2007年
6 俞洋;基于主动服务的用户导航系统[D];武汉理工大学;2008年
【同被引文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 吴云芳;;并列成分中心语语义相似性考察[J];当代语言学;2005年04期
4 江洲,李琦;地理编码(Geocoding)的应用研究[J];地理与地理信息科学;2003年03期
5 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
6 于源,衣袭;中文全切分快速分词方法[J];大连铁道学院学报;2005年02期
7 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
8 蔡勇智;基于最大匹配分词算法的中文词语粗分模型[J];福建电脑;2005年09期
9 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
10 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
中国重要会议论文全文数据库 前3条
1 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
2 史树敏;王志强;周浪;冯冲;黄河燕;;基于条件随机域的中文命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
3 董静;孙乐;吕元华;冯元勇;;基于线性链条件随机场模型的语义角色标注[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前4条
1 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
2 乐小虬;非结构化网络空间信息智能搜索与服务研究[D];中国科学院研究生院(遥感应用研究所);2006年
3 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
4 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
2 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
3 叶娜;面向信息抽取的文本预处理和规则自动学习技术研究[D];东北大学;2005年
4 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
5 吴雪军;面向信息抽取的命名实体识别与模板获取技术研究[D];东北大学;2005年
6 廖先桃;中文命名实体识别方法研究[D];哈尔滨工业大学;2006年
7 邹纲;中文新词语自动检测研究[D];中国科学院研究生院(计算技术研究所);2004年
8 陈霄;基于支持向量机的中文组织机构名识别[D];上海交通大学;2007年
9 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
10 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
【二级参考文献】
中国期刊全文数据库 前4条
1 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
2 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
3 吕雅娟,赵铁军,杨沐昀,于浩,李生;基于分解与动态规划策略的汉语未登录词识别[J];中文信息学报;2001年01期
4 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
中国重要会议论文全文数据库 前3条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国重要会议论文全文数据库 前2条
1 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 史树敏;王志强;周浪;冯冲;黄河燕;;基于条件随机域的中文命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国硕士学位论文全文数据库 前2条
1 廖志华;马尔科夫逻辑网络在引文匹配和中文命名实体识别中的应用研究[D];西南大学;2009年
2 何楠;基于统计机器学习的两阶段中文命名实体识别研究[D];北京邮电大学;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026