收藏本站
《电子学报》 2008年09期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于小规模尾字特征的中文命名实体识别研究

冯元勇  孙乐  张大鲲  李文波  
【摘要】:本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该系统在我国863简体命名实体识别评测语料上专名(人名、地名和机构名)总体F1值达88.76%,超过当年最佳系统8.63个百分点.在SIGHAN 2006命名实体识别语料上的结果也居于前列.

【引证文献】
中国期刊全文数据库 前8条
1 李丽双;党延忠;廖文平;黄德根;张颖;;CRF与规则相结合的中文地名识别[J];大连理工大学学报;2012年02期
2 蒋文明;张雪英;李伯秋;;基于条件随机场的中文地址要素识别方法[J];计算机工程与应用;2010年13期
3 冯鲸华;古丽拉·阿东别克;玛依来·哈帕尔;;基于N-gram语言模型的哈萨克文机构名识别[J];计算机工程与应用;2010年31期
4 邱莎;段玻;申浩如;丁海燕;;基于条件随机场的中文人名识别研究[J];昆明学院学报;2011年06期
5 唐旭日;陈小荷;许超;李斌;;基于篇章的中文地名识别研究[J];中文信息学报;2010年02期
6 邱莎;王付艳;申浩如;段玻;阿圆;丁海燕;;基于含边界词性特征的中文命名实体识别[J];计算机工程;2012年13期
7 唐旭日;陈小荷;张雪英;;中文文本的地名解析方法研究[J];武汉大学学报(信息科学版);2010年08期
8 邱莎;阿圆;王付艳;丁海燕;;基于统计的中文地名自动识别研究[J];计算机技术与发展;2011年11期
中国博士学位论文全文数据库 前2条
1 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
2 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前7条
1 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
2 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
3 陈慧炜;刑事案件文本信息抽取研究[D];南京师范大学;2011年
4 万鑫;基于文本分类的命名实体识别系统[D];北京邮电大学;2009年
5 冯鲸华;基于N-gram模型的哈萨克语实体名识别方法研究[D];新疆大学;2010年
6 刘彦宏;基于Internet的商业信息抽取[D];中国科学技术大学;2010年
7 张祝玉;基于条件随机场的中文命名实体识别[D];东北大学;2009年
【参考文献】
中国期刊全文数据库 前3条
1 姜维;王晓龙;关毅;赵健;;基于多知识源的中文词法分析系统[J];计算机学报;2007年01期
2 刘非凡;赵军;吕碧波;徐波;于浩;夏迎炬;;面向商务信息抽取的产品命名实体识别研究[J];中文信息学报;2006年01期
3 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[J];通信学报;2006年02期
【共引文献】
中国期刊全文数据库 前10条
1 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
2 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期
3 黄德根;李泽中;万如;;基于SVM和CRF的双层模型中文机构名识别[J];大连理工大学学报;2010年05期
4 方莹;;C-CRF模型在农作物名识别中的应用[J];广东农业科学;2011年06期
5 努尔比亚·吐拉甫;于洪志;李亚超;;基于CRF的维吾尔文命名实体识别研究[J];消费电子;2012年07期
6 周雪燕;韩建敏;;基于条件随机场汉语分词的语料规模量化研究[J];电脑与电信;2012年07期
7 庞秀丽;冯玉强;姜维;;贝叶斯文本分类中特征词缺失的补偿策略[J];哈尔滨工业大学学报;2008年06期
8 潘正高;侯传宇;谈成访;;基于命名实体的Web新闻文本分类方法[J];合肥工业大学学报(自然科学版);2011年08期
9 李治国;蔡东风;周俏丽;杨者青;;在篇章中利用互信息识别命名实体的研究[J];沈阳航空工业学院学报;2007年01期
10 方莹;;基于条件随机场的英文农产品名识别[J];河南科学;2011年03期
中国重要会议论文全文数据库 前6条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
3 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 肖诗斌;孙丽华;王弘尉;施水才;;指标信息抽取技术的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 宋晓雷;王素格;李红霞;;面向特定领域产品评价对象自动识别研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
3 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
4 徐军;面向金融信息检索的体裁分类与情感分析技术研究[D];哈尔滨工业大学;2011年
5 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
6 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
7 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
8 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
9 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
10 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
2 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年
3 张庐颖;基于粗糙集的K-means研究[D];北京交通大学;2011年
4 韩露;领域知识对领域问答系统答案抽取影响研究[D];昆明理工大学;2008年
5 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
6 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年
7 陈晖;半监督的命名实体识别[D];北京交通大学;2011年
8 常卫丽;领域本体在中文命名实体识别中的应用研究[D];武汉理工大学;2011年
9 姜鑫;跨汉蒙语言信息检索中的查询项翻译方法研究[D];内蒙古大学;2011年
10 耿爱媛;基于GA-BP神经网络的智能评语生成的研究[D];天津财经大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 吴云芳;;并列成分中心语语义相似性考察[J];当代语言学;2005年04期
5 江洲,李琦;地理编码(Geocoding)的应用研究[J];地理与地理信息科学;2003年03期
6 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
7 李丽双;黄德根;陈春荣;杨元生;;基于支持向量机的中文文本中地名识别[J];大连理工大学学报;2007年03期
8 黄德根;李泽中;万如;;基于SVM和CRF的双层模型中文机构名识别[J];大连理工大学学报;2010年05期
9 于源,衣袭;中文全切分快速分词方法[J];大连铁道学院学报;2005年02期
10 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
中国重要会议论文全文数据库 前3条
1 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
2 史树敏;王志强;周浪;冯冲;黄河燕;;基于条件随机域的中文命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
3 董静;孙乐;吕元华;冯元勇;;基于线性链条件随机场模型的语义角色标注[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前6条
1 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
2 乐小虬;非结构化网络空间信息智能搜索与服务研究[D];中国科学院研究生院(遥感应用研究所);2006年
3 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
4 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
5 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
6 徐新文;基于内容的新闻视频挖掘方法研究[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
2 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
3 叶娜;面向信息抽取的文本预处理和规则自动学习技术研究[D];东北大学;2005年
4 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
5 吴雪军;面向信息抽取的命名实体识别与模板获取技术研究[D];东北大学;2005年
6 廖先桃;中文命名实体识别方法研究[D];哈尔滨工业大学;2006年
7 邹纲;中文新词语自动检测研究[D];中国科学院研究生院(计算技术研究所);2004年
8 陈霄;基于支持向量机的中文组织机构名识别[D];上海交通大学;2007年
9 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
10 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
【二级引证文献】
中国期刊全文数据库 前5条
1 周蕾;朱巧明;;词结合型未登录词识别方法研究[J];常熟理工学院学报;2012年04期
2 杨柳;;空间数据全文检索方法研究[J];测绘工程;2012年06期
3 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
4 张春菊;张雪英;吉蕾静;汪浩然;;地名通名与地理要素类型的关系映射[J];武汉大学学报(信息科学版);2011年07期
5 杜萍;刘勇;;基于本体的中文地名识别[J];西北师范大学学报(自然科学版);2011年06期
中国博士学位论文全文数据库 前2条
1 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
2 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
中国硕士学位论文全文数据库 前5条
1 李波;基于自主推理的中文命名实体识别方法研究[D];西北大学;2012年
2 黄雪萍;基于地名信息的空间查询方法研究[D];中南大学;2012年
3 张芬;中文命名实体识别与浅层句法分析研究[D];南京师范大学;2012年
4 王宇;基于网络文本的地名空间模糊建模[D];南京师范大学;2012年
5 李超;面向新闻领域的人名消歧方法研究[D];东北大学;2010年
【二级参考文献】
中国期刊全文数据库 前5条
1 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
2 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
3 赵健,王晓龙,关毅;中文名实体识别中的特征组合与特征融合的比较[J];计算机应用;2005年11期
4 吕雅娟,赵铁军,杨沐昀,于浩,李生;基于分解与动态规划策略的汉语未登录词识别[J];中文信息学报;2001年01期
5 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
中国重要会议论文全文数据库 前3条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 蒋文明;张雪英;李伯秋;;基于条件随机场的中文地址要素识别方法[J];计算机工程与应用;2010年13期
2 伍守芹;李晓昀;;信息抽取技术研究与探讨[J];福建电脑;2010年04期
3 谷川;田喜平;;基于条件随机场的汉语词性标注方法研究[J];安阳师范学院学报;2010年05期
4 冯元勇;孙乐;李文波;张大鲲;;基于单字提示特征的中文命名实体识别快速算法[J];中文信息学报;2008年01期
5 阴晋岭;王惠临;;词性标注的方法研究——结合条件随机场和基于转换学习的方法进行词性标注[J];现代图书情报技术;2009年03期
6 于江德;樊孝忠;庞文博;余正涛;;基于条件随机场的语义角色标注(英文)[J];Journal of Southeast University(English Edition);2007年03期
7 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
8 张聪品;赵理莉;吴长茂;;基于字词分类的层次分词方法[J];计算机应用;2010年08期
9 张五辈;白宇;王裴岩;张桂平;;一种中医名词术语自动抽取方法[J];沈阳航空航天大学学报;2011年01期
10 刘莉;何中市;邢欣来;毛小丽;;基于语义角色的中文时间表达式识别[J];计算机应用研究;2011年07期
中国重要会议论文全文数据库 前10条
1 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
3 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
5 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
9 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 杨丽鹏;林世平;;基于关联规则和自然语言处理技术的概念间非分类关系的抽取[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
3 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
4 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
5 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
6 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
8 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
9 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
10 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
中国硕士学位论文全文数据库 前10条
1 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
2 何楠;基于统计机器学习的两阶段中文命名实体识别研究[D];北京邮电大学;2008年
3 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
4 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
5 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
6 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
7 侯丽敏;基于网络的智能答疑系统的研究与实现[D];河南大学;2005年
8 崔昌利;俄语简单句述谓VP的模式化及自动识别[D];黑龙江大学;2005年
9 赵城利;基于Web的信息智能感知技术及应用[D];国防科学技术大学;2004年
10 张学;EBMT系统中翻译模板的抽取与匹配[D];大连理工大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026