收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于锚点词对的双语词对齐算法

张孝飞  陈肇雄  黄河燕  王建德  
【摘要】:双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题,其中涉及词法、语法、语义以及英汉语言间的固有差异和翻译习惯等诸多问题.文章在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧策略,将词对齐问题转化为迭代求解锚点词对的过程,使得词对齐既有较高的准确率又有较高的召回率.经过对真实语料的测试,词对齐准确率达93.0%,召回率达77.3%,F值达84.2%,基本上满足了有关应用的实际要求.

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨皓东;江凌;李国俊;;国内自然语言处理研究热点分析——基于共词分析[J];图书情报工作;2011年10期
2 史晓东;卢亚军;;央金藏文分词系统[J];中文信息学报;2011年04期
3 王利鑫;耿焕同;孙凯;张茜;;基于自然语言处理的文本泄密自动检测技术[J];计算机工程与设计;2011年08期
4 安见才让;;藏语句子相似度算法的研究[J];中文信息学报;2011年04期
5 刘兴林;郑启伦;马千里;;中文合成词识别及分词修正[J];计算机应用研究;2011年08期
6 张海军;彭成;栾静;;基于外部排序的字串左右熵快速计算方法[J];计算机工程与应用;2011年19期
7 袁里驰;;基于词聚类的依存句法分析[J];中南大学学报(自然科学版);2011年07期
8 胡莉;;中文“词”的语言模型识别研究方法综述[J];北方文学(下半月);2011年03期
9 刘小明;樊孝忠;刘里;;融合事件信息的复杂问句分析方法[J];华南理工大学学报(自然科学版);2011年07期
10 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
11 李渝勤;甘润生;杨永红;施水才;;基于特征分选策略的中文共指消解方法[J];计算机工程;2011年18期
12 占飞;刘挺;;面向英文辅助写作的词语相似度应用研究[J];智能计算机与应用;2011年03期
13 ;2011年选题方向和重点栏目组稿内容[J];计算机应用;2011年S1期
14 刘凯;乌日力嘎;斯钦图;姜文斌;刘群;;基于双语约束的蒙古语无监督依存分析[J];中文信息学报;2011年04期
15 王晓莉;古里拉·阿东别克;;哈萨克语语句情感识别研究初探[J];计算机应用与软件;2011年08期
16 龚书;瞿有利;田盛丰;;基于维基语义的多文档文摘研究[J];南京大学学报(自然科学版);2011年04期
17 杨经;林世平;;基于SVM的文本词句情感分析[J];计算机应用与软件;2011年09期
18 王志洋;吕雅娟;刘群;;面向形态丰富语言的多粒度翻译融合[J];中文信息学报;2011年04期
19 高阳;;中国数据挖掘研究进展[J];南京大学学报(自然科学版);2011年04期
20 厉小军;戴霖;施寒潇;黄琦;;文本倾向性分析综述[J];浙江大学学报(工学版);2011年07期
中国重要会议论文全文数据库 前10条
1 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
3 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
5 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
6 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 杨丽鹏;林世平;;基于关联规则和自然语言处理技术的概念间非分类关系的抽取[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
8 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
9 张玥杰;徐智婷;钱晶;张涛;;自然语言处理中专名识别方法的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 计峰;自然语言处理中序列标注模型的研究[D];复旦大学;2012年
3 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
4 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
5 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
6 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
7 方宁;基于认知的文本语境生成和度量研究[D];上海大学;2009年
8 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
9 杜永萍;基于模式知识库的问题回答关键技术研究[D];复旦大学;2005年
10 王燚;基于场景化知识表示的自然语言处理及其在自动文本校对中的应用[D];西南交通大学;2005年
中国硕士学位论文全文数据库 前10条
1 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
2 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
3 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
4 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
5 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
6 张学;EBMT系统中翻译模板的抽取与匹配[D];大连理工大学;2006年
7 巩晓婷;基于文本的信息隐藏技术研究[D];福州大学;2006年
8 陈频;中文科技论文文本分类研究[D];厦门大学;2006年
9 李江;自然语言编程研究[D];北京邮电大学;2008年
10 张磊;基于最大熵模型的汉语词性标注研究[D];大连理工大学;2008年
中国重要报纸全文数据库 前10条
1 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
2 ;开天辟地第一回[N];计算机世界;2002年
3 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
4 运迪;未来电脑什么样[N];山西科技报;2000年
5 Chris Kanaracus沈建苗 编译;企业搜索的未来[N];计算机世界;2008年
6 ;未来十年展望之体验技术[N];中国计算机报;2010年
7 郭莹;全文检索市场空间大[N];中国计算机报;2006年
8 ;搜索引擎将引入人工智能技术[N];人民邮电;2006年
9 ;BI和文本分析的强强联手[N];网络世界;2007年
10 ;未来十年展望之下一代搜索技术[N];中国计算机报;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978