期刊库|学位论文库|会议论文库|免费注册|新手指南|知识超市|充值中心|知网招商|学习园地|帮助中心|English
全文文献:
《计算机学报》 1998年S1期
加入收藏 获取最新

基于自动抽取词汇信息的双语句子对齐

刘昕  周明  朱胜火  黄昌宁  
【摘要】:双语语料库句子对齐已成为新一代机器翻译研究中的一个至关重要的问题.对齐方法主要有基于长度的方法和基于词汇的方法,两者各具特点:前者实现简单、效率高,但精度低;后者精度高但实现复杂.本文提出一种新的对齐方法,首先利用基于长度的方法对文本进行粗对齐,然后在双语平行文本中确定锚点并自动抽取双语对应的关键词汇,降低了对齐问题的复杂度并减少了错误的蔓延.最后再利用所得到的词汇对应信息进行句子的对齐.这种方法融合了基于长度和基于词汇方法的优点,实验表明,它很大程度地提高了对齐的精度.
【作者单位】清华大学计算机科学与技术系!北京 100084 清华大学智能技术与系统国家重点实验室!北京 100084
【关键词】双语语料库 句子对齐 机器翻译
【基金】:国家自然科学基金 航天预研基金
【分类号】:TP391.2
【DOI】:CNKI:SUN:JSJX.0.1998-S1-027
【正文快照】:
1引言自80年代以来,基于统计(Statistics-based)和基于实例(Example-based)方法的出现及其广泛应用,标志着机器翻译进入了一个新时期[’j.这两种方法共同的特点是:它们把双语语料库(ParallelcorP0ra)直接或间接地作为翻译的知识库.双语语料库可以有多种组织形
推荐 CAJ下载 PDF下载
不支持迅雷等加速下载工具,请取消加速工具后下载
CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式

【引证文献】
中国期刊全文数据库 前2条
1 张艳,柏冈秀纪;基于长度的扩展方法的汉英句子对齐[J];中文信息学报;2005年05期
2 钱丽萍,赵铁军,杨沫昀,高光来;基于译文的英汉双语句子自动对齐[J];小型微型计算机系统;2001年01期
中国重要会议论文全文数据库 前3条
1 吕雅娟;赵铁军;李生;杨沐昀;;统计和词典方法相结合的双语语料库词对齐[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 李维刚;刘挺;王震;李生;;双语语料库段落重组对齐方法研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 杨建;杨沐昀;于浩;时晓升;;面向译文质量的EBMT系统实例库优化研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国硕士学位论文全文数据库 前4条
1 热西旦;汉文—维吾尔文双语语料库构建的实验性研究[D];新疆大学;2007年
2 张春国;工艺语句汉英计算机辅助翻译系统关键技术研究[D];南京航空航天大学;2004年
3 张健;基于实例的机器翻译的泛化方法研究[D];中国科学院研究生院(计算技术研究所);2001年
4 李继锋;基于双层模板结构的机器翻译方法研究[D];中国科学院研究生院(计算技术研究所);2003年
【同被引文献】
中国期刊全文数据库 前10条
1 吕雅娟,赵铁军,李生;单语句法分析指导的双语结构对齐[J];计算机研究与发展;2003年07期
2 邓丹,刘群,俞鸿魁;基于双语词典的汉英词语对齐算法研究[J];计算机工程;2005年16期
3 王秀坤,李政,简幼良,刘剑;基于Hash方法的机器翻译词典的组织与构造[J];大连理工大学学报;1996年03期
4 王海峰,李生,赵铁军;BT863-II汉英机器翻译系统中的兼类处理方法[J];高技术通讯;2000年01期
5 江红,吴立德,沙新时;机器翻译系统中概念词典的设计与实现[J];计算机研究与发展;1995年03期
6 王厚峰,戴大为;汉语句法结构标注的研究[J];计算机研究与发展;1997年03期
7 徐菁,张辉,陆汝占;汉语语料的切分标注加工系统[J];计算机工程;2003年09期
8 赵铁军,毛成江,张民,李生;CEMT—Ⅲ系统中汉语兼类问题的处理[J];中文信息学报;1993年04期
9 刘东立,滕永林,姚天顺;一种汉语电子词典的新结构[J];中文信息学报;1995年03期
10 杨思春,汪光阳;基于实例的机器翻译中实例匹配算法的研究[J];微机发展;2003年01期
中国重要会议论文全文数据库 前3条
1 柏晓静;常宝宝;詹卫东;吴拥华;;构建大规模的汉英双语平行语料库[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
2 张浩;刘群;白硕;;结构上下文相关的概率句法分析[A];第一届学生计算语言学研讨会论文集[C];2002年
3 刘非凡;赵军;徐波;;大规模非限定领域汉英双语语料库建设及句子对齐研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前1条
1 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
中国硕士学位论文全文数据库 前5条
1 祝志杰;IHSMTS中汉英双语句子对齐机制的设计与实现[D];南京理工大学;2002年
2 王飞;多语种双语对齐平台的设计与实现[D];南京理工大学;2004年
3 常红;现代维吾尔语基本词汇研究[D];新疆大学;2005年
4 毕雪华;汉维双语语料库中句子对齐技术的研究[D];新疆大学;2006年
5 陈鹏;基于语料库的维吾尔语词干提取和词性标注[D];新疆大学;2006年
【二级引证文献】
中国期刊全文数据库 前4条
1 吕学强,吴宏林,姚天顺;无双语词典的英汉词对齐[J];计算机学报;2004年08期
2 吕雅娟,李生,赵铁军;基于双语模型的汉语句法分析知识自动获取[J];计算机学报;2003年01期
3 淑琴;那顺乌日图;;面向EBMT系统的汉蒙双语语料库的构建[J];内蒙古社会科学(汉文版);2006年01期
4 胡国全,陈家骏,戴新宇,尹存燕;一种基于实例的汉英机器翻译策略[J];计算机工程与设计;2005年04期
中国重要会议论文全文数据库 前2条
1 Chun-xiang Zhang, Tie-jun Zhao, Sheng Li School of Computer Science and Technology, Harbin Institute of Technology, 150001, China;AUTOMATIC ACQUISITION OF TRANSLATION EQUIVALENCES FROM BILINGUAL CORPUS[A];多种语言信息处理国际学术会议论文集[C];2005年
2 陈群秀;;计算机辅助翻译系统漫谈[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前1条
1 武斌;面向俄文信息处理的机器翻译实验研究[D];中国人民解放军外国语学院;2007年
中国硕士学位论文全文数据库 前5条
1 毕雪华;汉维双语语料库中句子对齐技术的研究[D];新疆大学;2006年
2 钱之莹;汉英/英汉平行翻译语料库的设计及其在翻译中的应用[D];华东师范大学;2005年
3 许超;汉英双语网页资源中相同事件文本对的提取[D];南京师范大学;2005年
4 刘建基;基于关联度和词对齐的双语组块获取研究[D];南京理工大学;2006年
5 邓丹;汉英词语对齐技术研究[D];中国科学院研究生院(计算技术研究所);2004年
【相似文献】
中国期刊全文数据库 前10条
1 刘昕,周明,朱胜火,黄昌宁;基于自动抽取词汇信息的双语句子对齐[J];计算机学报;1998年S1期
2 钱丽萍,赵铁军,杨沫昀,高光来;基于译文的英汉双语句子自动对齐[J];计算机工程与应用;2000年12期
3 孙乐,金友兵,杜林,孙玉芳;平行语料库中双语术语词典的自动抽取[J];中文信息学报;2000年06期
4 钱丽萍,赵铁军,杨沫昀,高光来;基于译文的英汉双语句子自动对齐[J];小型微型计算机系统;2001年01期
5 晋薇;黄河燕;夏云庆;;基于语义相似度并运用语言学知识进行双语语句词对齐[J];计算机科学;2002年11期
6 吕学强,李清隐,黄志丹,沈嫣娜,姚天顺;基于统计的汉英句子对齐研究[J];小型微型计算机系统;2004年06期
7 张艳,柏冈秀纪;基于长度的扩展方法的汉英句子对齐[J];中文信息学报;2005年05期
8 张姝,赵铁军,杨沐昀,李生;面向事件的多语平行语料库构建研究[J];计算机应用研究;2005年11期
9 马芳 ,王炳锡 ,郭永辉;一种新的自纠错句对齐算法的研究与实现[J];微计算机信息;2005年20期
10 刘冬明,杨尔弘,方莹;汉英双语平行语料库的词义标注[J];中文信息学报;2005年06期
中国重要会议论文全文数据库 前3条
1 吕学强;李清隐;任飞亮;姚天顺;;基于统计的汉英句子对齐研究[A];第一届学生计算语言学研讨会论文集[C];2002年
2 刘非凡;赵军;徐波;;大规模非限定领域汉英双语语料库建设及句子对齐研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 热西旦·塔依;加米拉·吾守尔;吐尔根·依布拉音;;汉文-维吾尔文双语对齐语料库的实验性研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国硕士学位论文全文数据库 前3条
1 祝志杰;IHSMTS中汉英双语句子对齐机制的设计与实现[D];南京理工大学;2002年
2 薛松;汉英平行语料库中名词短语对齐算法的研究[D];中国科学院研究生院(软件研究所);2003年
3 毕雪华;汉维双语语料库中句子对齐技术的研究[D];新疆大学;2006年
京ICP证040431号  互联网出版许可证新出网证(京)字008号
销售咨询:800-810-6613、010-62703327 售卡热线:010-62985026
服务热线:400-810-9888、010-62791813、010-62783978
招商热线:010-62982993 投诉电话:010-62791994 ©2008 中国知网(cnki)
关 闭
关 闭
关 闭