收藏本站
收藏 | 投稿 | 论文排版

一种基于概率主题模型的命名实体链接方法

怀宝兴  宝腾飞  祝恒书  刘淇  
【摘要】:命名实体链接(named entity linking,简称NEL)是把文档中给定的命名实体链接到知识库中一个无歧义实体的过程,包括同义实体的合并、歧义实体的消歧等.该技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力.然而,实体数量的激增给实体消歧等带来了巨大挑战,使得当前的命名实体链接技术越来越难以满足人们对链接准确率的要求.考虑到文档中的词和实体往往具有不同的语义主题(如"苹果"既能表示水果又可以是某电子品牌),而同一文档中的词与实体应当具有相似的主题,因此提出在语义层面对文档进行建模和实体消歧的思想.基于此设计一种完整的、基于概率主题模型的命名实体链接方法.首先,利用维基百科(Wikipedia)构建知识库;然后,利用概率主题模型将词和命名实体映射到同一个主题空间,并根据实体在主题空间中的位置向量,把给定文本中的命名实体链接到知识库中一个无歧义的命名实体;最后,在真实的数据集上进行大量实验,并与标准方法进行对比.实验结果表明:所提出的框架能够较好地解决了实体歧义问题,取得了更高的实体链接准确度.

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 谭红叶;赵铁军;;一种基于软模式的语义类发现方法[J];哈尔滨工业大学学报;2007年11期
2 刘路;李弼程;张先飞;;基于向量相似度修正策略的命名实体关联分析[J];计算机工程与应用;2008年02期
3 潘渊;李弼程;张先飞;;一种基于自适应重心向量的主题检测方法[J];计算机工程;2009年03期
4 潘正高;侯传宇;谈成访;;基于命名实体的Web新闻文本分类方法[J];合肥工业大学学报(自然科学版);2011年08期
5 王睿,张洁,张由仪,于禛,姚天昉;基于混合模型的中文命名实体抽取系统[J];清华大学学报(自然科学版);2005年S1期
6 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
7 刘玉玲;辛国江;;篇章层自然语言数字水印方法[J];计算机工程;2010年12期
8 于满泉;骆卫华;许洪波;白硕;;话题识别与跟踪中的层次化话题识别技术研究[J];计算机研究与发展;2006年03期
9 刘嵩;张先飞;李弼程;孙显著;;基于概念相似度的话题自动检测方法[J];信息工程大学学报;2010年03期
10 张国喜;英藏命名实体在机器翻译系统的实现[J];青海师范大学学报(自然科学版);2004年03期
11 庄明,老松杨,吴玲达;一种统计和词性相结合的命名实体发现方法[J];计算机应用;2004年01期
12 王达;张坤;;隐马尔可夫模型在命名实体中的应用[J];黑龙江科技信息;2007年23期
13 陈永超;刘贵全;;一种基于命名实体的搜索结果聚类算法[J];计算机工程;2009年07期
14 张阔;李涓子;吴刚;王克宏;;基于词元再评估的新事件检测模型[J];软件学报;2008年04期
15 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期
16 陈怀兴;尹存燕;陈家骏;;一种命名实体翻译等价对的抽取方法[J];中文信息学报;2008年04期
17 饶洋辉;叶良;常红旭;程洁;;新话题监测研究进展[J];图书馆杂志;2009年07期
18 段利国;陈俊杰;牛彦清;;一种融合多种语义特征的中文问题分类方法[J];太原理工大学学报;2011年05期
19 庞薇;徐波;;基于多模型融合的人名翻译系统[J];中文信息学报;2009年01期
20 崔世起;刘群;孟遥;于浩;西野文人;;基于大规模语料库的新词检测[J];计算机研究与发展;2006年05期
中国重要会议论文全文数据库 前10条
1 罗维;吉宗诚;吕雅娟;刘群;;一种改进词语对齐的新方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 钱小飞;侯敏;;中文基本地名识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 刘茂福;金可佳;姬东鸿;张晓龙;;统计与规则相结合的指代消解在事件自动文摘中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 于江德;王希杰;余正涛;;基于最大熵模型的语义角色标注[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
5 谢永康;周雅倩;黄萱菁;;一种基于谱聚类的共指消解方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 张亮;陈肇雄;黄河燕;;基于ontology的问答系统问题分类研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
9 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 陈志玮;肖诗斌;施水才;王昕;;一种基于HTML位置信息的查询扩展技术[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 伍大勇;搜索引擎中命名实体查询处理相关技术研究[D];哈尔滨工业大学;2012年
2 刘晓江;基于统计滚雪球模型的知识挖掘理论与方法[D];中国科学技术大学;2011年
3 郑志诚;用户查询歧义性分析研究[D];清华大学;2013年
4 刘慧;信息检索中用户需求的概念分析研究[D];上海交通大学;2009年
5 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
6 荚济民;基于互联网数据集的图像标注技术研究[D];中国科学技术大学;2009年
7 李赟;基于中文维基百科的语义知识挖掘相关研究[D];北京邮电大学;2009年
8 王会珍;文本内容分类和主题追踪关键技术研究[D];东北大学;2008年
9 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
10 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年
中国硕士学位论文全文数据库 前10条
1 杜俊武;基于点击数据和搜索结果片断的命名实体挖掘[D];北京理工大学;2011年
2 于凌;基于本体的命名实体检索的研究与实现[D];东北大学;2010年
3 刘凯;基于条件随机场的中医病历命名实体抽取方法研究[D];北京交通大学;2013年
4 李海光;基于位置和语义特征的中文命名实体关系抽取研究[D];合肥工业大学;2011年
5 徐秋妍;基于CRF的命名实体和关系的联合抽取[D];上海交通大学;2012年
6 茹旷;日汉双语命名实体对获取方法及其应用研究[D];北京交通大学;2014年
7 王鹏;从可比较语料中抽取中英命名实体等价对[D];大连理工大学;2011年
8 马艳红;基于链接路径搜索的网页命名实体提取研究[D];合肥工业大学;2013年
9 马民艳;基于分类器融合的生物医学命名实体与关系识别研究[D];东北石油大学;2011年
10 郑宏;汉英双向时间数字和数量词的识别与翻译技术[D];哈尔滨工业大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978