边界模板和局部统计相结合的中国人名识别
【摘要】: 本文提出了一种基于篇章信息的中国人名识别算法。我们从标注语料中提取人名左右边界词语及人名用字频度作为系统知识源。识别过程是:首先利用带有频度的边界模板识别出可能的人名,并把识别结果扩散到整篇文章以召回数据稀疏导致的遗漏人名。然后应用上下文局部统计量及几条启发式规则对识别结果进行边界校正。该算法具有线性时间复杂度,大规模开放测试(针对1354篇新闻报道约304万字,含人名3.7万个)的正确率为94.52%,召回率为98.97%,效果非常令人满意。
1
孙茂松,邹嘉彦;汉语自动分词研究评述 [J];当代语言学;2001年01期
2
张锋,樊孝忠,许云;基于统计的中文姓名识别方法研究 [J];计算机工程与应用;2004年10期
3
张华平,刘群;基于角色标注的中国人名自动识别研究 [J];计算机学报;2004年01期
4
罗智勇,宋柔;一种基于可信度的人名识别方法 [J];中文信息学报;2005年03期
5
赵铁军,吕雅娟,于浩,杨沐昀,刘芳;提高汉语自动分词精度的多步处理策略 [J];中文信息学报;2001年01期
6
郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究 [J];中文信息学报;2000年01期
7
孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识 [J];中文信息学报;1995年02期
8
孙茂松,邹嘉彦;汉语自动分词研究中的苦干理论问题 [J];语言文字应用;1995年04期
1
马玉霞;黄德根;杨元生;;一种改进的中文姓名识别方法 [A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
2
俞鸿魁;张华平;刘群;;基于角色标注的中文机构名识别 [A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
3
余军;陈晓鸥;;命名实体识别:One-at-a-time or All-at-once?Word-based or Character-based? [A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
1
张学工;关于统计学习理论与支持向量机 [J];自动化学报;2000年01期
2
张德鑫;“水至清则无鱼”——我的新生词语规范观 [J];北京大学学报(哲学社会科学版);2000年05期
3
丁丰,董娜,林碧琴,袁保宗;自然语言处理系统中自动分词的研究 [J];北方交通大学学报;1999年06期
4
许云,樊孝忠,张锋;基于知网的语义相关度计算 [J];北京理工大学学报;2005年05期
5
李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用 [J];北京邮电大学学报;2005年06期
6
唐培丽,王树明,胡明;基于语义的汉语文献主题词提取算法研究 [J];吉林大学学报(信息科学版);2005年05期
7
冯敏萱,杨翠兰,陈小荷;“者”缀词识别 [J];常州工学院学报(社科版);2005年03期
8
张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法 [J];东北大学学报(自然科学版);2003年03期
9
冀新花;应用知识分类理论进行E-learning课程设计 [J];中国远程教育;2003年03期
10
孙茂松,邹嘉彦;汉语自动分词研究评述 [J];当代语言学;2001年01期
1
王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法 [J];科学通报;1989年13期
2
李国臣,刘开瑛,张永奎;汉语自动分词及歧义组合结构的处理 [J];中文信息学报;1988年03期
3
揭春雨
,刘源
,梁南元;论汉语自动分词方法 [J];中文信息学报;1989年01期
4
梁南元;汉语计算机自动分词知识 [J];中文信息学报;1990年02期
5
何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理 [J];中文信息学报;1991年02期
6
梁南元,刘源,沈旭昆,谭强,杨铁鹰;制订《信息处理用现代汉语常用词词表》的原则与问题的讨论 [J];中文信息学报;1991年03期
7
韩世欣,王开铸;基于短语结构文法的分词研究 [J];中文信息学报;1992年03期
8
曹焕光,郑家恒;自动分词软件质量的评价模型 [J];中文信息学报;1992年04期
9
徐秉铮,詹剑,贺前华;基于神经网络的分词方法 [J];中文信息学报;1993年02期
10
沈达阳,孙茂松,黄昌宁;汉语分词系统中的信息集成和最佳路径搜索方法 [J];中文信息学报;1997年02期