《高技术通讯》1998年10期 加入收藏    获取最新 
 基于汉语二元同现的统计词义消歧方法研究
 荀恩东,李生,赵铁军
   采用《汉语同义词词林》和英汉双语语料库,通过“双语对齐”扩充了英汉词典的单词译文;对大规模汉语语料库以B+树算法为骨架统计了汉语词组二元同现频次。在英汉机器翻译中,针对翻译的英语句子应用汉语词组二元同现的统计结果形成词义消歧矩阵,再针对消歧矩阵提出了一种贪心的选择算法,以此完成译文选择。
【作者单位】:哈尔滨工业大学计算机系
【关键词】:词义消歧,机器翻译,二元同现
【基金】:863计划资助项目,国家自然科学基金
【分类号】:TP391.2,H085
【DOI】:cnki:ISSN:1002-0470.0.1998-10-004
【正文快照】:
  一、引言词义消歧是机器翻译的核心和难点问题之一,它的主要任务是选择源语言中单词的目标词。国内外从事自然语言处理和机器翻译的研究者对此进行了广泛的研究,提出了一些解决方法,如以下几种具有代表性的方法[1]:基于类义词典的词义消歧方法(Amsler,Walk
 推荐 CAJ下载           PDF下载
 CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式
 Research on the Method of Word Sense Disambiguation Based on Target Language Bigram
 Xun Endong;Li Sheng;Zhao Tiejun (Department of Computer Science and Tech.;Harbin Institute of Tech.;Harbin 150001)
  An alignment method which makes use of thesaurus and bilingual corpus is adopted and thus the number of Chinese translation of word in English Chinese dictionaries is enlarged. The B+algorithm is applied to computing the co occurrence number of Chinese phrases. Based on the bigram used in Chinese corpus, a greed algorithm of Word Sense Disambiguation(WSD) is introduced. The algorithm has been applied in the English to Chinese Machine Translation named BT863II and has improved the systems WSD ability.
【Keyword】:Work Sense Disambiguation(WSD), Machine translation, Bigram
 【引证文献】 共(10)篇 
 中国期刊全文数据库找到 2 条
 
1卢志茂,刘挺,李生; 统计词义消歧的研究进展 [J];电子学报; 2006年02期
2张晶,李生,姚建民,赵铁军; 基于目标语词汇组合合理性评价的译文选择模型 [J];计算机研究与发展; 2003年09期
 中国优秀硕士学位论文全文数据库找到 3 条
 
1刘小宇; 基于语义理解的中文常问问答系统的研究 [D];大连理工大学; 2006年
2李剑影; 并置理论研究 [D];吉林大学; 2004年
3赵艳芳; 面向Internet的个性化信息服务的研究 [D];云南师范大学; 2005年
 中国博士学位论文全文数据库找到 2 条
 
1冯敏萱; 论汉英平行语料的平行处理 [D];南京师范大学; 2006年
2陈清才; 基于粗集的汉语建模及其应用研究 [D];哈尔滨工业大学; 2003年
 中国重要会议论文全文数据库找到 3 条
 
1姚建民,张晶,赵铁军,于浩,李生; 英语句法分析树向汉语分析树的转换 [A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集 [C]; 2001年
2余晓峰,刘鹏远,赵铁军; 一种基于《知网》的汉语词语词义消歧方法 [A];第二届全国学生计算语言学研讨会论文集 [C]; 2004年
3丁江伟,刘挺,卢志茂,李生; 隐马尔可夫模型和贝叶斯模型词义消歧对比研究 [A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集 [C]; 2003年
 【同被引文献】 共(220)篇 
 中国期刊全文数据库找到 10 条
 
1黄俊红,黄萍,范云; 专门用途语类翻译平行语料库研究述评 [J];重庆大学学报(社会科学版); 2004年06期
2袁颖芬 ,张玥杰; 英汉机译中未登录词的识别 [J];电子技术; 2004年02期
3李在铭; 并置关系的特性与并置理论 [J];福州大学学报(哲学社会科学版); 2001年04期
4赵铁军,方高林,李生; 英语介词短语附着决策的研究 [J];高技术通讯; 2001年03期
5汪立东,方滨兴,云晓春; 基于受访Web页动态分类技术的用户兴趣追踪 [J];高技术通讯; 2002年04期
6冯柳平; 机器翻译中的歧义性问题 [J];桂林电子工业学院学报; 1998年04期
7王永成,许慧敏; OA-1.4 版中文自动摘要系统 [J];高技术通讯; 1998年01期
8程节华; 自动分词中的歧义字段分析及处理 [J];安徽农业技术师范学院学报; 2000年03期
9刘莉,徐玉生,马志新; 数据挖掘中数据预处理技术综述 [J];甘肃科学学报; 2003年01期
10李蕾,孙春葵,杨晓兰,钟义信; 一种特定领域中文自动摘要系统 [J];北京邮电大学学报; 2000年01期
 中国优秀硕士学位论文全文数据库找到 4 条
 
1薛松; 汉英平行语料库中名词短语对齐算法的研究 [D];中国科学院研究生院(软件研究所); 2003年
2周舫; 汉语句子相似度计算方法及其应用的研究 [D];河南大学; 2005年
3吴凤娟; 汉英歧义现象对比研究 [D];华中科技大学; 2004年
4许超; 汉英双语网页资源中相同事件文本对的提取 [D];南京师范大学; 2005年
 中国重要会议论文全文数据库找到 6 条
 
1王惠; 汉英机器翻译中基于大型语义词典的汉语词义消歧 [A];机器翻译研究进展——2002年全国机器翻译研讨会论文集 [C]; 2002年
2柏晓静,常宝宝,詹卫东,吴拥华; 构建大规模的汉英双语平行语料库 [A];机器翻译研究进展——2002年全国机器翻译研讨会论文集 [C]; 2002年
3余晓峰,刘鹏远,赵铁军; 一种基于《知网》的汉语词语词义消歧方法 [A];第二届全国学生计算语言学研讨会论文集 [C]; 2004年
4丁江伟,刘挺,卢志茂,李生; 隐马尔可夫模型和贝叶斯模型词义消歧对比研究 [A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集 [C]; 2003年
5赵妍妍,秦兵,刘挺,张俐,苏中; 基于多特征融合的句子相似度计算 [A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集 [C]; 2005年
6张宇,刘挺,高立琦,车万翔,朱传靖; 基于常问问题集的在线客服实验研究 [A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集 [C]; 2005年
 西文参考文献找到 8 条
 
1Meng Yao,Zhao Tiejun,Yu Hao,Li Sheng; A Decision Tree Based Corpus Approach to English Base Noun Phrase Identification [M];Proceedings International conference on East-Asian Language Processing and Internet Information Technology; 2000年
2Christopher D; Manning,Hinrich Schütze,Foundation of Statistical Natural Language Processing [M];; 1999年
3Hwee Tou Ng; Exemplar-Based Word Sense Disambiguation:Some Recent Improvements [M];Proceedings of the Second Conference on Empirical Methods in Natural Language Processing(EMNLP-2); August 1997年
4Hinrich, S., Pedersen, J.; Information retrieval based on word senses [M];Proc of the 4th Annual ymposium on Document Analysis and Information Retrieval.; 1995年
5Yarowsky. D; Word-Sense Disambiguation Using Statistical Models of Roget's Categories Trained on Large Corpora [M];Proceedings. COLING-92.; 1992年
6Rada Mihalcea ,and Dan Moldovan; A Highly Accurate Bootstrapping Algorithm for Word Sense Disambiguation [M];International Journal on Artificial Intelligence Tools; 2001年
7Rada Mihalcea, and Dan Moldovan; A Method for Word Sense Disambiguation of Unrestricted Text [M];Proceedings of ACL '99.; 1999年
8Erhong Yang, Guoqing Zhang, and Yongkui Zhang; The Research of Word Sense Disambiguation Method Based on Co-occurrence Frequency of Hownet [M];Journal of Computer Research&Development; 2001年
 【二级引证文献】 共(13)篇 
 中国期刊全文数据库找到 5 条
 
1刘远超,王晓龙,徐志明,刘秉权; 基于粗集理论的中文关键词短语构成规则挖掘 [J];电子学报; 2007年02期
2赵丽奎,蔡东风,张恒; 基于统计语言模型的译文选择方法 [J];沈阳航空工业学院学报; 2004年05期
3钟彬彬,刘远超,徐志明; 基于GA的文本子主题切分中的参数优化研究 [J];计算机工程与应用; 2005年21期
4徐永东,徐志明,王晓龙; 基于信息融合的多文档自动文摘技术 [J];计算机学报; 2007年11期
5闫蓉,张蕾; 一种新的汉语词义消歧方法 [J];计算机技术与发展; 2006年03期
 中国优秀硕士学位论文全文数据库找到 6 条
 
1甘丽新; 基于Markov概念的信息检索模型 [D];江西师范大学; 2007年
2刘小宇; 基于语义理解的中文常问问答系统的研究 [D];大连理工大学; 2006年
3杨小洪; 基于自组织映射的自动文摘方法研究 [D];哈尔滨工业大学; 2006年
4李剑; 英汉机器翻译中的句型转换和译文生成 [D];中国人民解放军信息工程大学; 2005年
5盛俊; 潜在语义的Markov网络检索模型的研究 [D];江西师范大学; 2006年
6彭俊; 面向阅读的论文主题标引管理系统研究 [D];中南大学; 2007年
 中国博士学位论文全文数据库找到 1 条
 
1刘政怡; 中文整句智能输入方法研究 [D];安徽大学; 2007年
 中国重要会议论文全文数据库找到 1 条
 
1王菁华,刘建毅,王枞; 语义网络结构下的词义消歧 [A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集 [C]; 2006年
 【相似文献】 
 中国期刊全文数据库
 
1荀恩东,李生,赵铁军; 基于汉语二元同现的统计词义消歧方法研究 [J];高技术通讯; 1998年10期; 23-27
2卢志茂,刘挺,张刚,李生; 基于依存分析改进贝叶斯模型的词义消歧 [J];高技术通讯; 2003年05期; 4-10
3曲维光,陈小荷,董宇,穗志方; 基于语境计算模型的汉语词义消歧(英文) [J];广西师范大学学报(自然科学版); 2006年04期; 186-189
4何婷婷,谢芳; 利用BP神经网络的中文词义消歧模型 [J];华中师范大学学报(自然科学版); 2005年04期; 44-48
5谈文蓉,杨宪泽,刘莉; 汉语自动排歧方法研究 [J];西南民族大学学报(自然科学版); 2005年06期; 137-142
 中国优秀硕士学位论文全文数据库
 
1陈浩; 基于二阶上下文的无导词义消歧研究 [D];华中师范大学; 2005年
2全昌勤; 基于语料库的汉语词义消歧方法研究 [D];华中师范大学; 2005年
3杨宇娜; 基于统计的中文词义消歧技术研究 [D];哈尔滨工业大学; 2006年
4苗雪雷; 基于条件随机场的汉语词义消歧方法研究 [D];沈阳航空工业学院; 2007年
5闫蓉; 基于语义的汉语词义消歧方法研究 [D];西北大学; 2006年
6刘小宇; 基于语义理解的中文常问问答系统的研究 [D];大连理工大学; 2006年
7叶君梅; 英汉机器翻译中的歧义及消歧策略 [D];广西师范大学; 2002年
 中国博士学位论文全文数据库
 
1冯敏萱; 论汉英平行语料的平行处理 [D];南京师范大学; 2006年
 中国重要会议论文全文数据库
 
1张云涛,龚玲,王永成; 基于语料库的朴素贝叶斯方法的词义消歧 [A];2005年中国智能自动化会议论文集 [C]; 2005年
2余晓峰,刘鹏远,赵铁军; 一种基于《知网》的汉语词语词义消歧方法 [A];第二届全国学生计算语言学研讨会论文集 [C]; 2004年
3丁江伟,刘挺,卢志茂,李生; 隐马尔可夫模型和贝叶斯模型词义消歧对比研究 [A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集 [C]; 2003年
4吴云芳,温珍珊,段慧明,俞士汶; 语料库粗粒度词义标注 [A];第六届汉语词汇语义学研讨会论文集 [C]; 2005年
5秦颖,王小捷; 组合中文词义消歧 [A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集 [C]; 2005年
6王菁华,刘建毅,王枞; 语义网络结构下的词义消歧 [A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集 [C]; 2006年
7曲维光,董宇,陈钟,陈小荷; 基于语境计算模型的词义消歧 [A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集 [C]; 2005年
8王惠; 汉英机器翻译中基于大型语义词典的汉语词义消歧 [A];机器翻译研究进展——2002年全国机器翻译研讨会论文集 [C]; 2002年
9全昌勤,何婷婷,姬东鸿; 基于义类的无导词义消歧方法的研究 [A];第二届全国学生计算语言学研讨会论文集 [C]; 2004年
10郎君,刘挺,张会鹏,李生; LTP:语言技术平台 [A];第三届学生计算语言学研讨会论文集 [C]; 2006年
关于知网 | CNKI导报 | 知识产权声明 | 联系我们 | 知网招商
京ICP证040431号 京ICP证040441号 互联网出版许可证新出网证(京)字008号
售卡热线:800-810-6613、010-62789720、010-62773682
售后服务:800-810-1436(限座机拨打) 010-62791813、010-62783978
招商热线: 010-62772106 投诉电话:010-62791994 2007 中国知网(cnki)