收藏本站
《东北大学学报》 2003年06期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

句子相似模型和最相似句子查找算法

吕学强  任飞亮  黄志丹  姚天顺  
【摘要】:提出一种句子相似模型,用以度量句子的相似程度·句子相似度由词形相似度和词序相似度决定,词形相似度起主要作用,词序相似度起次要作用·该模型可保证当一个句子的分句或短语整体发生长距离移动后,仍与原来的句子很相似·提出一种基于单词倒排索引和句子长度索引的最相似句子查找算法·实验结果表明该查找算法不仅高效,而且平均查找时间受语料库规模影响很小·
【作者单位】东北大学信息科学与工程学院 东北大学信息科学与工程学院 沈阳师范大学计算中心 东北大学信息科学与工程学院
【基金】:国家自然科学基金资助项目(60083006) 国家重点基础研究发展规划项目(G19980305011)
【分类号】:TP391.2
【正文快照】:
传统的基于规则的机器翻译系统(rulebasedmachinetranslation,RBMT)[1,2]需要庞大而复杂的规则库[3]支撑·规则的来源是专家的知识,获取和维护耗时费力,又无法避免冲突·规则的获取和维护瓶颈难以跨跃,导致基于规则的机器翻译系统质量几十年没有本质性提高·随着语料库语言学

【引证文献】
中国期刊全文数据库 前4条
1 林鸿飞;丁洪文;杨志豪;赵晶;;基于概念和统计的问答系统实现机制[J];大连理工大学学报;2006年02期
2 杨思春;;一种改进的句子相似度计算模型[J];电子科技大学学报;2006年06期
3 王萌,何婷婷,姬东鸿,王晓荣;基于HowNet概念获取的中文自动文摘系统[J];中文信息学报;2005年03期
4 王萌,何婷婷,张伟;基于概念向量空间模型的中文自动文摘系统[J];计算机工程与应用;2005年01期
中国博士学位论文全文数据库 前2条
1 杨雨图;支持双语的协同CAPP系统若干关键技术研究[D];南京航空航天大学;2006年
2 彭强;复杂系统远程智能故障诊断技术研究[D];南京理工大学;2004年
中国硕士学位论文全文数据库 前10条
1 王萌;基于概念向量空间模型的中文自动文摘研究[D];华中师范大学;2005年
2 葛强;亲属关系逻辑推理专家系统的研究[D];河南大学;2005年
3 周舫;汉语句子相似度计算方法及其应用的研究[D];河南大学;2005年
4 南铉国;基于语句相似度计算的主观题自动评分技术研究[D];延边大学;2007年
5 安利斌;基于知网的内容知晓研究[D];太原理工大学;2006年
6 于国权;面向C语言题库的相似试题辨别方法研究[D];哈尔滨工业大学;2006年
7 张玉娟;基于《知网》的句子相似度计算的研究[D];中国地质大学(北京);2006年
8 柴晓丽;自动文摘技术的研究与应用[D];长春理工大学;2007年
9 黄莉;基于受限域常问问答库的中文问答系统研究[D];昆明理工大学;2007年
10 曲晓;受限条件下学生作业文本相似度的研究[D];内蒙古师范大学;2006年
【参考文献】
中国期刊全文数据库 前1条
1 朱靖波,王宝库,姚天顺;一种规则描述语言NPRDL语言[J];东北大学学报(自然科学版);1996年06期
【共引文献】
中国期刊全文数据库 前2条
1 杨思春;;一种改进的句子相似度计算模型[J];电子科技大学学报;2006年06期
2 淑琴;那顺乌日图;;面向EBMT系统的汉蒙双语语料库的构建[J];内蒙古社会科学(汉文版);2006年01期
中国重要会议论文全文数据库 前2条
1 任飞亮;吕学强;吴宏林;马越;姚天顺;;基于词形相似和语义距离的最佳翻译模板检索算法(英文)[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
2 Dong-il Kim;Jong-Hyeok Lee;;Full Interaction between Example-based and Rule-based Engines in a Hybrid Chinese-to-Korean MT[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
中国博士学位论文全文数据库 前3条
1 杨雨图;支持双语的协同CAPP系统若干关键技术研究[D];南京航空航天大学;2006年
2 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
3 丘宏俊;基于知识的飞机装配工艺设计关键技术研究[D];西北工业大学;2006年
中国硕士学位论文全文数据库 前4条
1 张春国;工艺语句汉英计算机辅助翻译系统关键技术研究[D];南京航空航天大学;2004年
2 张学;EBMT系统中翻译模板的抽取与匹配[D];大连理工大学;2006年
3 蒋宏飞;EBMT翻译模型自动构建研究[D];哈尔滨工业大学;2006年
4 乌达巴拉;基于混合策略的蒙—英机器翻译系统的研究[D];内蒙古大学;2007年
【同被引文献】
中国期刊全文数据库 前10条
1 鲁松,白硕;自然语言处理中词语上下文有效范围的定量描述[J];计算机学报;2001年07期
2 刘康龙;穆雷;;语料库语言学与翻译研究[J];中国翻译;2006年01期
3 陆建江,徐宝文;挖掘典型的语言值关联规则[J];东南大学学报(自然科学版);2004年03期
4 周蕾;朱巧明;;基于统计和规则的未登录词识别方法研究[J];计算机工程;2007年08期
5 刘建舟,何婷婷,骆昌日;基于语料库和网络的新词自动识别[J];计算机应用;2004年07期
6 王望珍,王先甲,钱耕;不对称信息下物业管理的委托代理分析[J];科技进步与对策;2003年08期
7 王亚英,邵惠鹤;基于案例系统的不确定案例索引和检索方法[J];控制与决策;2000年06期
8 吕雅娟,赵铁军,杨沐昀,于浩,李生;基于分解与动态规划策略的汉语未登录词识别[J];中文信息学报;2001年01期
9 刘华;;一种快速获取领域新词语的新方法[J];中文信息学报;2006年05期
10 张民,李生,赵铁军;大规模汉语语料库中任意n的n-gram统计算法及知识获取方法[J];情报学报;1997年01期
中国重要会议论文全文数据库 前10条
1 杨二宝;吕学强;朱靖波;姚天顺;;一种汉英翻译模板提取方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 李淑云;朱桂斌;柏森;高海洋;;一种新的DCT域数字音频零水印算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
3 陈蔚文;马世龙;;航天器测试信息系统数据资源管理平台的设计与实现[A];2007中国控制与决策学术年会论文集[C];2007年
4 王连诚;马强;;基于概念权重的本体相似度计算[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
5 车万翔;刘挺;秦兵;李生;;面向依存文法分析的搭配抽取方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
6 郑旭玲;李堂秋;杨晓峰;陈毅东;;基于语义规则的汉语短语结构分析排歧初探[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 姚建民;张晶;赵铁军;于浩;李生;;英语句法分析树向汉语分析树的转换[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 王洋;秦兵;郑实福;;句子相似度计算在FAQ中的应用[A];第一届学生计算语言学研讨会论文集[C];2002年
9 关毅;王晓龙;;基于统计的汉语词汇间语义相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 沈斌;关联规则相关技术研究[D];浙江大学;2007年
2 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
3 秦宝荣;智能CAPP系统的关键技术研究[D];南京航空航天大学;2003年
4 胡清国;否定形式的格式制约研究[D];华中师范大学;2004年
5 詹亚锋;通信信号自动制式识别及参数估计[D];清华大学;2004年
6 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
7 李枚毅;基于免疫机制和多示例学习的移动机器人进化导航研究[D];中南大学;2005年
8 郝宇;基于Kolmogorov复杂性的知识获取方法研究[D];清华大学;2005年
9 钱剑飞;基于特征符号的程序理解研究[D];浙江大学;2006年
10 张亮;面向开放域的中文问答系统问句处理相关技术研究[D];南京理工大学;2006年
中国硕士学位论文全文数据库 前10条
1 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
2 张江;本体在领域知识管理中的应用研究[D];重庆大学;2005年
3 陆伟忠;基于本体论的信息检索框架[D];武汉大学;2005年
4 滕良娟;基于本体的专家系统模型研究[D];中国石油大学;2007年
5 唐珺珺;城市应急管理系统框架模型的研究[D];同济大学;2007年
6 严晓梅;基于网络的智能答疑系统的设计与实现[D];西北大学;2007年
7 叶忠杰;基于课程知识本体的智能答疑系统的研究与开发[D];浙江工业大学;2007年
8 缪晶晶;Web服务行为适配技术研究[D];浙江大学;2008年
9 潘文锋;基于内容的垃圾邮件过滤研究[D];中国科学院研究生院(计算技术研究所);2004年
10 孙卫华;以建构主义为指导的计算机辅助教学软件的设计[D];河北大学;2000年
【二级引证文献】
中国期刊全文数据库 前3条
1 费胜巍;孙宇;张登峰;王胜红;;由产品设计知识生成故障诊断与维护知识的方法[J];机械设计;2006年02期
2 廖莎莎;江铭虎;;中文文本分类中基于概念屏蔽层的特征提取方法[J];中文信息学报;2006年03期
3 王德亮;;语篇脉络理论述评——宏观语篇处理[J];现代外语;2006年03期
中国重要会议论文全文数据库 前3条
1 刘宝艳;林鸿飞;杨志豪;;基于改进编辑距离和依存结构的句子相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
2 吕静;昝红英;;基于语义统计的中文自动文摘研究[A];第三届学生计算语言学研讨会论文集[C];2006年
3 邵伟;何婷婷;胡珀;肖华松;;一种面向查询的多文档文摘句选择策略[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前3条
1 孙红岩;大型旋转机械智能诊断多Agent系统的研究[D];重庆大学;2007年
2 刘德喜;基于基本要素的多文档自动文摘研究[D];武汉大学;2007年
3 陈伟;制造企业分布式远程服务系统及其关键技术的研究[D];同济大学;2007年
中国硕士学位论文全文数据库 前10条
1 王继远;一种用于软件作业评判系统的程序结构分析算法的设计与实现[D];北京邮电大学;2007年
2 郭鹏;汉语语法语料库系统的基础设计[D];天津师范大学;2006年
3 刘小宇;基于语义理解的中文常问问答系统的研究[D];大连理工大学;2006年
4 杨霞;属性约简算法和文本相似度计算在智能分析系统的研究[D];电子科技大学;2007年
5 毋琳;特定领域问答系统中通用语义理解框架的设计与实现[D];河南大学;2007年
6 刘宝艳;面向生物医学领域的问答系统的研究与实现[D];大连理工大学;2007年
7 朱苗苗;基于概念图知识表示方法的研究与实践[D];西安建筑科技大学;2008年
8 卢冶;基于概念扩充和综合评价的中文自动文摘研究[D];大连理工大学;2006年
9 张珍;冷藏集装箱远程故障诊断系统研究[D];上海海事大学;2006年
10 马芳;机器翻译系统中英语从句的识别研究[D];解放军信息工程大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 吴恒山,刘兴宇,左琼;一种基于可扩展散列表的倒排索引更新策略[J];计算机工程;2004年08期
2 王宏宇;;基于Native-XML数据库倒排索引算法研究[J];情报科学;2006年07期
3 苏潭英;郭宪勇;金鑫;;一种基于Lucene的中文全文检索系统[J];计算机工程;2007年23期
4 黄少林;王华;张玉红;蒋一峰;;基于Lucene的索引系统的设计与实现[J];现代情报;2009年07期
5 王涛;吴洁明;;搜索引擎建立倒排索引的算法研究[J];现代计算机(专业版);2008年01期
6 王路芳;张虎;;一种面向搜索引擎的基于集合模型的搜索算法[J];山西农业大学学报(自然科学版);2009年06期
7 吐尔洪·吾司曼;维尼拉·木沙江;;维、哈、柯多语种搜索引擎中索引器的研究[J];新疆大学学报(自然科学版);2011年02期
8 余淼;杨丹;赵俊芹;;垂直搜索引擎的关键技术研究[J];软件导刊;2007年23期
9 宁可为;;自动答疑系统知识库文本的索引研究[J];电脑知识与技术;2009年35期
10 宁可为;王炜;;基于倒排索引的答疑系统知识库文本研究[J];湖北广播电视大学学报;2010年06期
中国重要会议论文全文数据库 前10条
1 刘小珠;孙莎;曾承;彭智勇;;基于缓存的倒排索引机制研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 李栋;史晓东;;对搜索引擎中倒排索引更新策略的研究和改进[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
3 宋彦;张桂平;蔡东风;;基于N-gram的句子相似度计算技术[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 董祥千;左志宏;刘强国;;Lucene倒排索引文件的实现与优化[A];四川省通信学会2006年学术年会论文集(二)[C];2006年
5 张宇;刘挺;高立琦;车万翔;朱传靖;;基于常问问题集的在线客服实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 辛欣;李涓子;;基于Java语言全文信息检索系统的设计与实现[A];促进企业信息化进程——第十届中国Java技术及应用大会文集[C];2007年
7 菅小艳;郑家恒;;一种改进的句子相似度计算方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 维尼拉·木沙江;吴俊森;吐尔根·依布拉音;;维吾尔文搜索引擎的倒排索引设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 孙宇;刘憬;张宇;刘挺;;基于分词和倒排索引的短文本检索技术的研究与实现[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
10 李勇;陈文斌;;嵌入式平台上的地址搜索[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
中国重要报纸全文数据库 前1条
1 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
中国博士学位论文全文数据库 前10条
1 吴炜;密文全文检索系统中的索引机制研究[D];华中科技大学;2009年
2 龙柏;并行计算平台上的数据索引技术研究[D];中国科学技术大学;2011年
3 胥正川;基于关系数据库的XML数据存储、更新和检索[D];复旦大学;2003年
4 宋玲;语义相似度计算及其应用研究[D];山东大学;2009年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 刘红;近重复视频检测算法研究[D];复旦大学;2012年
7 张帆;搜索引擎中索引表求交和提前停止技术优化研究[D];南开大学;2012年
8 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
9 刘宏哲;文本语义相似度计算方法研究[D];北京交通大学;2012年
10 刘科;内容感知存储系统中的信息检索关键技术研究[D];华中科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 薛慧芳;句子相似度计算理论及应用研究[D];西北大学;2011年
2 刘欣;智能答疑系统中句子相似度计算的研究与应用[D];电子科技大学;2011年
3 董长春;基于Hadoop的倒排索引技术的研究[D];辽宁大学;2011年
4 杨茂;基于句子相似度的文本比对算法研究[D];电子科技大学;2010年
5 潘胜一;基于倒排索引的压缩算法性能研究[D];杭州电子科技大学;2009年
6 张振幸;基于知网的模块化的中文句子相似度计算研究[D];安徽工业大学;2010年
7 刘青磊;汉语词语及句子相似度算法研究与应用[D];电子科技大学;2011年
8 陈雪帆;基于固态硬盘的倒排索引构建与维护策略研究[D];华中科技大学;2012年
9 薛煜阳;农业搜索引擎倒排索引缓冲机制研究[D];新疆农业大学;2011年
10 黄妮;网络学习平台中的分词与句子相似度算法研究[D];陕西师范大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026