收藏本站
《计算机与信息技术》 2007年12期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于规则和语料库的中文姓名识别研究

熊桂喜  李政  
【摘要】:中文姓名识别是中文分词中未登录词识别的一个重要部分,处理好中文姓名问题势必会有效地提高未登录词识别的精度。本文提出了一种基于规则和语料库的中文姓名识别方法,兼顾召回率和准确率,针对1998人民日报语料库(共计58634个汉字,其中姓名357个)进行实验,召回率为85.1%,准确率为89.2%。
【作者单位】北京航空航天大学计算机系 北京航空航天大学计算机系
【分类号】:TP391.43

【参考文献】
中国期刊全文数据库 前6条
1 李斌;陈小荷;方芳;徐艳华;;基于语料库的高频最大交集型歧义字段考察[J];中文信息学报;2006年01期
2 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
3 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
4 贾品贵;杨一平;卢朋;;基于类向量模型的中文姓名识别研究[J];计算机应用研究;2007年04期
5 张锋,樊孝忠,许云;基于统计的中文姓名识别方法研究[J];计算机工程与应用;2004年10期
6 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
【共引文献】
中国期刊全文数据库 前10条
1 黄昌宁,孙茂松;中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J];当代语言学;1996年04期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
4 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报;2003年02期
5 马颖华,王永成,苏贵洋;一种在汉语文本中抽取重复字串的快速算法[J];电子学报;2002年S1期
6 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
7 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
8 王力红,杨剑,尹荧,李云波,孙亚萍;旅游信息数据库汉语智能接口的研究[J];计算机工程与应用;2002年01期
9 张仰森,徐波,曹元大,宗成庆;基于姓氏驱动的中国姓名自动识别方法[J];计算机工程与应用;2003年04期
10 张锋,樊孝忠,许云;基于统计的中文姓名识别方法研究[J];计算机工程与应用;2004年10期
中国重要会议论文全文数据库 前10条
1 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 侯敏;侯敞;;汉英机译系统译文质量的评测[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
3 张树武;徐波;黄泰翼;;汉语大词汇/连续语音识别语言建模技术分析[A];第四届全国人机语音通讯学术会议论文集[C];1996年
4 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
6 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 郑家恒;李文花;;新词语自动识别方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 侯敏;;汉语自动分析中的若干问题与对策[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 张艳;徐波;;基于转换的错误学习方法的汉语词性自动标注研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国博士学位论文全文数据库 前8条
1 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
2 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
3 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
4 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
5 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
6 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
7 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
8 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
中国硕士学位论文全文数据库 前10条
1 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
2 王省;基地统计和规则的中文姓名识别系统的研制[D];大连理工大学;2000年
3 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
4 吴雪敏;汉语语句的计算机分析[D];电子科技大学;2001年
5 许勇;基于百科词典的知识获取系统的研究与实现[D];北京工业大学;2001年
6 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
7 章成志;基于文本层次模型的Web概念挖掘研究[D];南京农业大学;2002年
8 马东坡;Internet中文智能搜索引擎汉语自动分词系统设计[D];广西师范大学;2002年
9 张艳丽;中文机构名称的自动识别[D];大连理工大学;2003年
10 刘东旭;在自然汉语中进行分词和词性标注[D];电子科技大学;2003年
【二级参考文献】
中国期刊全文数据库 前8条
1 牛正雨,柴佩琪;文语转换系统中的中文姓名识别[J];计算机应用研究;2001年01期
2 李成城,赵述芳,刘建毅,钟义信;基于动态规划算法的专有名词切分[J];计算机应用研究;2005年07期
3 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
4 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
5 罗智勇,宋柔;一种基于可信度的人名识别方法[J];中文信息学报;2005年03期
6 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
7 孙茂松,左正平,邹嘉彦;高频最大交集型歧义切分字段在汉语自动分词中的作用[J];中文信息学报;1999年01期
8 陈小荷;用基于词的二元模型消解交集型分词歧义[J];南京师大学报(社会科学版);2004年06期
【相似文献】
中国期刊全文数据库 前10条
1 李堂秋;用大规模并行网络模型同时解决中文分词和语法分析[J];厦门大学学报(自然科学版);1990年02期
2 黄居仁,陈克健,陈凤仪,魏文真,张丽丽;《资讯处理用中文分词规范》设计理念及规范内容[J];语言文字应用;1997年01期
3 邹海山,吴勇,吴月珠,陈阵;中文搜索引擎中的中文信息处理技术[J];计算机应用研究;2000年12期
4 李东,张湘辉;中文软件汉语分词研究与应用[J];中国计算机用户;2000年14期
5 钟涛,陈新明,万钧,张世永;中文文本WEB搜索引擎的设计与实现[J];计算机工程与应用;2001年17期
6 丁承,邵志清;基于字表的中文搜索引擎分词系统的设计与实现[J];计算机工程;2001年02期
7 王靖,肖明君,蔡庆生;一种基于Web的智能搜索方法[J];计算机应用研究;2001年11期
8 李志蜀,李果;中文搜索引擎的原理剖析及开发实现技术[J];计算机应用研究;2001年11期
9 赵铁军,吕雅娟,于浩,杨沐昀,刘芳;提高汉语自动分词精度的多步处理策略[J];中文信息学报;2001年01期
10 吕雅娟,赵铁军,杨沐昀,于浩,李生;基于分解与动态规划策略的汉语未登录词识别[J];中文信息学报;2001年01期
中国重要会议论文全文数据库 前10条
1 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 刘俊;张益肇;;基于统计的中文姓名提取方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年
3 于传武;李生;陈鄞;赵铁军;;基于混合策略的汉语未登录词整体识别[A];第一届学生计算语言学研讨会论文集[C];2002年
4 许超;陈小荷;;试评两种商用机译软件的汉语分析能力[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
5 徐志明;揭春雨;Jonathan ebster;;一种自适应概率语言模型的训练方法及其应用于中文分词[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 雷静;;汉语机构名的构成模式[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 俞鸿魁;张华平;刘群;;基于角色标注的中文机构名识别[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
8 陶晓鹏;周水庚;;无辅助数据的中文分词方法(英文)[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
9 陈丽江;;ACL-SIGHAN第一届国际中文分词竞赛评述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 苏贵洋 ;李建华 ;马颖华;;XML统一文本自动处理描述接口[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
3 丁鸿;百度掀起财富浪潮 中国互联网不再“青涩”[N];中国工业报;2005年
4 王翌;互联网2005:个性化生存[N];计算机世界;2005年
5 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
6 王宾;加速争夺中国搜索市场[N];北京商报;2006年
7 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年
8 高雪娟;企业搜索要为决策服务[N];中国计算机报;2006年
9 姜蕊;过半用户难辨百度雅虎[N];中国商报;2006年
10 张磊;雅虎加速争夺在华市场[N];中华工商时报;2006年
中国博士学位论文全文数据库 前5条
1 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
2 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
3 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
4 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
5 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
2 陈红英;Internet信息过滤Agent的研究和实现[D];广东工业大学;2002年
3 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
4 陈乐;基于智能文本分类技术的素材管理软件的设计与开发[D];南京师范大学;2003年
5 胡蓉;中文Web文档倾向性自动分类研究[D];四川大学;2003年
6 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
7 赵海雁;基于数据链路层数据捕获与信息过滤[D];华北工学院;2004年
8 许彦彬;基于Java技术的生物资源专业搜索引擎的研究与开发[D];昆明理工大学;2004年
9 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
10 于爱军;NERMS中基于Internet的搜索引擎研究与实现[D];吉林大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026