收藏本站
《中文信息学报》 2006年05期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

边界模板和局部统计相结合的中国人名识别

李中国  刘颖  
【摘要】:本文提出了一种基于篇章信息的中国人名识别算法。我们从标注语料中提取人名左右边界词语及人名用字频度作为系统知识源。识别过程是:首先利用带有频度的边界模板识别出可能的人名,并把识别结果扩散到整篇文章以召回数据稀疏导致的遗漏人名。然后应用上下文局部统计量及几条启发式规则对识别结果进行边界校正。该算法具有线性时间复杂度,大规模开放测试(针对1354篇新闻报道约304万字,含人名3.7万个)的正确率为94.52%,召回率为98.97%,效果非常令人满意。

手机知网App
【引证文献】
中国博士学位论文全文数据库 前1条
1 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
中国硕士学位论文全文数据库 前1条
1 武玉洲;汉语文本人名识别改进方法研究[D];北京语言大学;2007年
【参考文献】
中国期刊全文数据库 前8条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 张锋,樊孝忠,许云;基于统计的中文姓名识别方法研究[J];计算机工程与应用;2004年10期
3 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
4 罗智勇,宋柔;一种基于可信度的人名识别方法[J];中文信息学报;2005年03期
5 赵铁军,吕雅娟,于浩,杨沐昀,刘芳;提高汉语自动分词精度的多步处理策略[J];中文信息学报;2001年01期
6 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
7 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
8 孙茂松,邹嘉彦;汉语自动分词研究中的苦干理论问题[J];语言文字应用;1995年04期
【共引文献】
中国期刊全文数据库 前10条
1 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
2 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
3 黄昌宁,孙茂松;中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J];当代语言学;1996年04期
4 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
5 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
6 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
7 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
8 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报;2003年02期
9 马颖华,王永成,苏贵洋;一种在汉语文本中抽取重复字串的快速算法[J];电子学报;2002年S1期
10 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
中国重要会议论文全文数据库 前3条
1 马玉霞;黄德根;杨元生;;一种改进的中文姓名识别方法[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
2 俞鸿魁;张华平;刘群;;基于角色标注的中文机构名识别[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
3 余军;陈晓鸥;;命名实体识别:One-at-a-time or All-at-once?Word-based or Character-based?[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
2 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
3 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
4 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
5 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
6 彭强;复杂系统远程智能故障诊断技术研究[D];南京理工大学;2004年
7 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
8 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
9 达胡白乙拉;蒙古语基本动词短语自动识别研究[D];内蒙古大学;2005年
10 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
中国硕士学位论文全文数据库 前10条
1 张旭洁;基于语义网络的类自然语言的知识获取与转换的研究[D];云南师范大学;2006年
2 胡业江;中文姓名自动识别技术研究[D];华侨大学;2005年
3 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
4 王省;基地统计和规则的中文姓名识别系统的研制[D];大连理工大学;2000年
5 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
6 许勇;基于百科词典的知识获取系统的研究与实现[D];北京工业大学;2001年
7 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
8 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
9 关宏超;基于统计的开放式汉语自动分词[D];大连理工大学;2002年
10 章成志;基于文本层次模型的Web概念挖掘研究[D];南京农业大学;2002年
【同被引文献】
中国期刊全文数据库 前10条
1 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
2 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
3 丁丰,董娜,林碧琴,袁保宗;自然语言处理系统中自动分词的研究[J];北方交通大学学报;1999年06期
4 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
5 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
6 唐培丽,王树明,胡明;基于语义的汉语文献主题词提取算法研究[J];吉林大学学报(信息科学版);2005年05期
7 冯敏萱,杨翠兰,陈小荷;“者”缀词识别[J];常州工学院学报(社科版);2005年03期
8 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报(自然科学版);2003年03期
9 冀新花;应用知识分类理论进行E-learning课程设计[J];中国远程教育;2003年03期
10 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
中国重要会议论文全文数据库 前1条
1 吐尔根·依不拉音;阿里甫·库尔班;阿不都热依木;;基于词典的现代维吾尔语词性自动标注系统的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前8条
1 王晓东;基于Ontology知识库系统建模与应用研究[D];华东师范大学;2003年
2 陈娟;高技术企业知识体系构造与管理研究[D];复旦大学;2004年
3 倪益华;基于本体的制造企业知识集成技术的研究[D];浙江大学;2005年
4 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
5 吴江;基于本体的知识管理系统关键技术研究[D];西北大学;2007年
6 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
7 张磊;基于本体的主动式知识系统及其若干关键技术研究[D];南京航空航天大学;2006年
8 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
中国硕士学位论文全文数据库 前10条
1 杨德来;SVM和最大熵相结合的中文机构名自动识别[D];大连理工大学;2006年
2 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
3 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
4 黄瑞;基于KDD的知识自动获取及其应用[D];南京信息工程大学;2005年
5 胡业江;中文姓名自动识别技术研究[D];华侨大学;2005年
6 乔羽;基于最大熵模型的中文人名识别方法研究[D];山西大学;2005年
7 王兴义;基于模式匹配的中文专有名词识别[D];山西大学;2005年
8 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
9 熊冬明;汉语自动分词和中文人名识别技术研究[D];浙江大学;2006年
10 徐超;基于种子自扩展的命名实体关系抽取方法的研究[D];华中师范大学;2006年
【二级参考文献】
中国期刊全文数据库 前10条
1 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
2 李国臣,刘开瑛,张永奎;汉语自动分词及歧义组合结构的处理[J];中文信息学报;1988年03期
3 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
4 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
5 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
6 梁南元,刘源,沈旭昆,谭强,杨铁鹰;制订《信息处理用现代汉语常用词词表》的原则与问题的讨论[J];中文信息学报;1991年03期
7 韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期
8 曹焕光,郑家恒;自动分词软件质量的评价模型[J];中文信息学报;1992年04期
9 徐秉铮,詹剑,贺前华;基于神经网络的分词方法[J];中文信息学报;1993年02期
10 沈达阳,孙茂松,黄昌宁;汉语分词系统中的信息集成和最佳路径搜索方法[J];中文信息学报;1997年02期
【相似文献】
中国期刊全文数据库 前10条
1 木合亚提·尼亚孜别克;古力沙吾利;;哈萨克文信息处理的现状和发展方向[J];中文信息学报;2010年04期
2 周程远;朱敏;杨云;;基于词典的中文分词算法研究[J];计算机与数字工程;2009年03期
3 罗杰;陈力;夏德麟;王凯;;基于新的关键词提取方法的快速文本分类系统[J];计算机应用研究;2006年04期
4 朱晓旭;李培峰;朱巧明;刁红军;;一个适用于手持设备的多层汉字输入法模型[J];中文信息学报;2006年06期
5 扎西加;珠杰;;面向信息处理的藏文分词规范研究[J];中文信息学报;2009年04期
6 干俊伟,黄德根;汉语介词短语的自动识别[J];中文信息学报;2005年04期
7 刘云峰,齐欢,Xiang’en Hu,Zhiqiang Cai;潜在语义分析权重计算的改进[J];中文信息学报;2005年06期
8 赵海;揭春雨;;基于有效子串标注的中文分词[J];中文信息学报;2007年05期
9 贾宁;张全;;基于句间关系的汉语语义块省略恢复[J];中文信息学报;2008年06期
10 黄娴;张克亮;;汉语零形回指研究综述[J];中文信息学报;2009年04期
中国重要会议论文全文数据库 前10条
1 宋兰;孙茂松;;中文文本全文查重的实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 刘汇丹;芮建武;吴健;;藏文网页的编码识别与转换[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 徐印才;任立群;段元慧;任俊泉;;输血科智能管理系统的开发与应用[A];第四届全国临床检验学术会议论文汇编[C];2006年
4 陈皓;郑利平;刘晓平;;模板在虚拟现实平台中的应用[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
5 唐西隆;;用ToolBook制作多媒体课件的技巧[A];第十五届全国图学教育研讨会暨第七届工程制图CAI课件演示交流会论文集[C];2006年
6 满正行;李应兴;单广荣;于洪志;;网络应用中实现藏文支持的一种方案[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 赵晓波;;基于即时通信的客户服务系统[A];2007年中国通信学会“移动增值业务与应用”学术年会论文集[C];2007年
8 唐永明;王小捷;文娟;;基于关联词的复句语言模型[A];第三届中国智能计算大会论文集[C];2009年
9 朱新河;严新平;萧汉梁;;计算机辅助油液监测数据处理系统[A];第二届全国青年摩擦学学术会议论文专辑[C];1993年
10 彭朝林;;急诊分诊处的计算机应用[A];全国护理临床研究学术交流暨专题讲座会议论文会编[C];2001年
中国重要报纸全文数据库 前10条
1 记者 梁捷;我国中文信息处理技术从实验室走向全面应用[N];光明日报;2009年
2 姚双云 华中师范大学语言与语言教育研究中心;虚词知识库:中文信息处理的基石[N];中国社会科学报;2011年
3 张波 龙雨;中文信息处理国际学术会议在武汉大学召开[N];中国社会科学院院报;2007年
4 记者 韩晓玲通讯员 张波 龙雨;海内外专家聚焦中文信息处理[N];湖北日报;2007年
5 胡唯元;文字编码新标准:不再为“名”所累[N];科技日报;2006年
6 撰文 西南证券;计算机应用服务业,随大势而动[N];上海金融报;2008年
7 许伟;金友兵 破局国外办公套件垄断[N];中国企业报;2008年
8 ;浙江天宇信息技术有限公司[N];中国计算机报;2009年
9 兰文科;浅析计算机应用系统平台建设[N];中国国门时报;2007年
10 王伟 潘丽;构建数字海事[N];计算机世界;2006年
中国博士学位论文全文数据库 前9条
1 李苏红;基于实体模型的工程图样数字化设计的研究[D];吉林大学;2007年
2 刘杰;泄漏发射的信息重建与防御对策[D];浙江大学;2004年
3 Memon Abdul Ghafoor;[D];浙江大学;2006年
4 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
5 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
6 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
7 梁添才;基于认知机理的汉字智能造字研究[D];华南理工大学;2008年
8 卢建平;基于拓扑学和统计学的无字库汉字智能造字研究[D];华南理工大学;2010年
9 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
2 党兰学;汉字语法语义智能输入法总体设计与部分实现[D];河南大学;2006年
3 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
4 曹林峰;中文文字差错率统计软件的实现[D];西安电子科技大学;2007年
5 张玉华;基于码本的输入法评测系统的设计和实现[D];苏州大学;2005年
6 杜莹;汉字语法语义智能输入法核心算法及实现技术[D];河南大学;2006年
7 徐瑞;一个中文语义语料库的研究与建设[D];苏州大学;2006年
8 沈威;基于渡越矩阵与语境计算模型的复句关系词的自动标注[D];华中师范大学;2007年
9 罗丽俊;中文信息处理中若干技术的研究与实现[D];辽宁科技大学;2008年
10 毋琳;特定领域问答系统中通用语义理解框架的设计与实现[D];河南大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026