收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于大规模语料库的汉语词义相似度计算方法

石静  吴云芳  邱立坤  吕学强  
【摘要】:词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上下文特征权值的选择、向量相似度计算方法、基于窗口和基于依存关系的表征形式、新闻语体和网络语体的差异。实验结果表明,在网络语言语料上,基于窗口选取上下文特征,用互信息PMI来计算权值,采用cosine来计算相似度,取得了最好的词义相似度结果。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张敏,罗振声;语料库与知识获取模型[J];中文信息学报;1994年01期
2 胡俊峰 ,俞士汶;唐宋诗中词汇语义相似度的统计分析及应用[J];中文信息学报;2002年04期
3 秦斌;;数字农业与精细农业[J];山西农业大学学报(自然科学版);2007年S2期
4 王鹏;樊兴华;;中文文本分类中利用依存关系的实验研究[J];计算机工程与应用;2010年03期
5 蔡科;史晓东;陈毅东;黄哲煌;;基于层次聚类的中文词义归纳(英文)[J];心智与计算;2010年03期
6 贾君枝;毛海飞;;汉语框架网络问答系统问句处理研究[J];图书情报工作;2008年10期
7 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
8 马金山;刘挺;李生;;基于SVM的汉语句子片段划分[J];哈尔滨工业大学学报;2009年05期
9 汪红林;王红玲;周国栋;;基于依存关系的语义角色标注[J];计算机工程;2009年15期
10 张仰森;;基于最大熵模型的汉语词义消歧与标注方法[J];计算机工程;2009年18期
11 姚冬磊;赵晓鹏;卫耀伟;;同义词挖掘及表示研究[J];福建电脑;2010年03期
12 李珊珊;吴秀清;;基于一维傅里叶变换的改进形状上下文特征[J];中国科学技术大学学报;2010年10期
13 于江德;王希杰;樊孝忠;;汉语分词中上文和下文重要性比较[J];计算机工程与应用;2011年04期
14 袁晓虹;王红玲;王步康;周国栋;;基于依存关系的中文名词性谓词语义角色标注研究[J];计算机应用与软件;2011年05期
15 高松;冯志伟;;基于依存树库的文本聚类研究[J];中文信息学报;2011年03期
16 舒鑫柱,杨尔弘;基于HOWNET的汉语组块分析[J];河南职技师院学报;2001年04期
17 刘彦宏,杜威,李华;足球视频序列中球员的分割与跟踪算法[J];系统仿真学报;2001年S2期
18 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期
19 李鑫;黄萱菁;吴立德;;基于错误驱动算法组合分类器及其在问题分类中的应用[J];计算机研究与发展;2008年03期
20 丁凡;王斌;白硕;刘宜轩;李亚楠;;文档检索中句法信息的有效利用研究[J];中文信息学报;2008年04期
中国重要会议论文全文数据库 前10条
1 汪红林;丁金涛;王红玲;周国栋;;基于依存关系的语义角色标注[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
2 王倩;何婷婷;闻彬;宋乐;张茂元;;基于依存关系的中文情感要素抽取技术研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 赵怿怡;关润池;;汉语依存树库的构建[A];第三届学生计算语言学研讨会论文集[C];2006年
4 马金山;刘挺;李生;;面向句法分析的句子片段识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 李正华;车万翔;刘挺;;基于柱状搜索的高阶依存句法分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 李鑫;杜永萍;黄萱菁;吴立德;;基于句法信息和语义信息的问题分类[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 张惠春;由丽萍;谷波;刘开瑛;;面向框架语义分析的汉语句法分析模型[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 丁凡;王斌;白硕;刘宜轩;李亚楠;;文本检索中句法信息的有效利用研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 周惠巍;黄德根;高洁;杨元生;;最大生成树算法和Nivre算法相结合的中文依存关系解析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 高松;赵怿怡;刘海涛;;汉语特殊结构的句法标注策略[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 高常鑫;基于上下文的目标检测与识别方法研究[D];华中科技大学;2010年
4 李鑫;问题回答系统中的问题分类研究[D];复旦大学;2007年
5 刘刚;面向领域的软件需求一致性验证方法研究[D];哈尔滨工程大学;2008年
6 王红玲;基于特征向量的中英文语义角色标注研究[D];苏州大学;2009年
7 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年
8 李珊珊;计算机视觉中特征与相似性度量研究[D];中国科学技术大学;2010年
9 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
10 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 涂潇蕾;上下文特征结合空间金字塔模型的场景分类算法研究[D];燕山大学;2012年
2 金泉;日语长句子的句法分析[D];大连理工大学;2004年
3 高洁;多分类器系统在日语依存关系解析中的研究[D];大连理工大学;2011年
4 尹鹏;基于SVM的中文组块间依存关系分析[D];大连理工大学;2006年
5 计峰;基于序列标注的中文依存句法分析研究[D];复旦大学;2008年
6 宋巍;基于句法特征的代词消解方法研究[D];哈尔滨工业大学;2008年
7 张旭洁;基于语义网络的类自然语言的知识获取与转换的研究[D];云南师范大学;2006年
8 周俏丽;面向汉语单句的依存句法分析研究[D];沈阳航空工业学院;2006年
9 李培;产品评论挖掘的观点抽取和分类技术研究[D];重庆大学;2009年
10 牛彦清;中文问答系统的问句分类研究[D];太原理工大学;2011年
中国重要报纸全文数据库 前7条
1 ;EMC管理软件着陆ITSM市场[N];网络世界;2007年
2 福建 蒋济舟;生成SQL Server数据库脚本四法[N];电脑报;2004年
3 本报记者 于翔;游刃于变化之间[N];网络世界;2006年
4 佟乐;虚拟化管理走向融合[N];网络世界;2007年
5 杨雨;甲骨文竞购BEA剑指SAP[N];计算机世界;2007年
6 本报记者 边歆;SOA不需要ESB[N];网络世界;2010年
7 宁福申;西部世纪石油工程技术服务信息管理平台可靠实用[N];中国石油报;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978