《软件学报》2000年02期 加入收藏    获取最新 
 汉语最长名词短语的自动识别
 周强,孙茂松,黄昌宁
   通过对包含 5573个汉语句子的语料文本中的最长名词短语的分布特点的统计分析 ,提出了两种有效的汉语最长名词短语自动识别算法 :基于边界分布概率的识别算法和基于内部结构组合的识别算法 .实验结果显示 ,后者的识别正确率和召回率分别达到了 85.4 %和 82 .3% ,取得了较好的自动识别效果 .关键词 最长名词短语 ,边界识别 ,句法分析 .
【作者单位】:智能技术与系统国家重点实验室!北京100084;清华大学计算机科学与技术系!北京100084
【关键词】:最长名词短语;边界识别;句法分析
【基金】:国家自然科学基金! (No.6 970 5 0 0 5 );中国博士后科学基金! (No.970 0 5 )资助
【分类号】:TP391.1
【DOI】:cnki:ISSN:1000-9825.0.2000-02-007
【正文快照】:
  在自然语言句子的理解过程中 ,能否准确地识别其中的名词短语 (np)起着很重要的作用 .按照认知科学的观点 ,人类必须首先识别、学习和理解文本中的实体 (entity)或者概念 (具体的或抽象的 ) ,才能很好地理解自然语言文本 ,而这些实体和概念大都是由文本句子中的名词短语所描述的 .因此 ,如果我们掌握了文本中的名词短语 ,就可以在很大程度上把握文本所表达的主要意思 .从组成结构上看 ,句子中的名词短语可分为以下 3类 :(1)最短名词短语 (minimal noun phrase,简称m NP) :不包含其他任何名词短语的名词短语 ;(2 )最长名词短语 (maximal nou…
 推荐 CAJ下载           PDF下载
 CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式
 Automatic Identification of Chinese Maximal Noun Phrases
 ZHOU Qiang SUN Mao song HUANG Chang ning(State Key Laboratory of Intelligent Technology and Systems\ Beijing 100084) (Department of Computer Science and Technology Tsinghua University Beijing 100084)
  Based on the statistical characteristics of Chinese maximal noun phrases (MNPs) in a Chinese corpus with 5 573 sentences, two efficient identifying algorithms for Chinese MNPs: (1) To identify MNPs by using boundary distribution probabilities; (2) To identify MNPs by using internal structure rules, are proposed in this paper. Experimental results show better performances: precision 85.4% and recall 82.3%, by using identifying algorithm (2).
【Keyword】:Maximal noun phrase, boundary identification, syntax parsing.
 【引证文献】 共(39)篇 
 中国期刊全文数据库找到 10 条
 
1牛正雨,柴佩琪; 基于边界点词性特征统计的韵律短语切分 [J];中文信息学报; 2001年05期
2奚建清,罗强; 基于HMM的汉语介词短语自动识别研究 [J];计算机工程; 2007年03期
3刘冬明,赵军,杨尔弘; 汉英双语语料库中名词短语的自动对应 [J];中文信息学报; 2003年05期
4周雅倩,郭以昆,黄萱菁,吴立德; 基于最大熵方法的中英文基本名词短语识别 [J];计算机研究与发展; 2003年03期
5周强,孙茂松,黄昌宁; 汉语句子的组块分析体系 [J];计算机学报; 1999年11期
6李素建,刘群,杨志峰; 基于最大熵模型的组块分析 [J];计算机学报; 2003年12期
7李素建,刘群,白硕; 统计和规则相结合的汉语组块分析 [J];计算机研究与发展; 2002年04期
8姜韶华,党延忠; 无词典中英文混合术语抽取及算法研究 [J];情报学报; 2006年03期
9姜韶华,党延忠,宣照国; 无词典抽词的RMMFS和BMMFS方法及其比较研究 [J];情报学报; 2006年04期
10钱小飞; “地”字结构识别 [J];现代语文(语言研究版); 2006年05期
 中国优秀硕士学位论文全文数据库找到 10 条
 
1王越; 基于Ontology的Web政务资源的智能处理与应用 [D];山东大学; 2007年
2刘冬明; 汉英双语平行语料库中对齐方法的研究 [D];山西大学; 2004年
3于浚涛; 基于最大熵的汉语介词短语自动识别 [D];大连理工大学; 2006年
4傅成宏; 现代汉语兼语结构的自动识别 [D];南京师范大学; 2007年
5钱小飞; 含“的”最长名词短语的自动识别 [D];南京师范大学; 2007年
6张惠春; 面向框架语义的汉语短语自动识别研究 [D];山西大学; 2006年
7邹宏梅; 组块识别技术的研究与实现 [D];国防科学技术大学; 2006年
8黄元萃; 汉语基本名词短语的自动识别模型 [D];大连理工大学; 2001年
9张海燕; 基于分词的中文文本自动分类研究与实现 [D];湖南大学; 2002年
10周俏丽; 面向汉语单句的依存句法分析研究 [D];沈阳航空工业学院; 2006年
 中国博士学位论文全文数据库找到 6 条
 
1史艳岚; 基于中国主流报纸动态流通语料库的对外汉语报刊新闻主题词群及相关研究 [D];北京语言大学; 2006年
2李素建; 汉语组块计算的若干研究 [D];中国科学院研究生院(计算技术研究所); 2002年
3郑逢斌; 关于计算机理解自然查询语言的研究 [D];西南交通大学; 2004年
4姜韶华; 科研项目管理中的文本挖掘方法研究及应用 [D];大连理工大学; 2006年
5于满泉; 面向人物追踪的知识挖掘研究 [D];中国科学院研究生院(计算技术研究所); 2006年
6隋岩; 基于“动态流通语料库”的“有效字符串”提取研究 [D];北京语言大学; 2004年
 中国重要会议论文全文数据库找到 7 条
 
1周强,詹卫东,任海波; 构建大规模的汉语语块库 [A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集 [C]; 2001年
2彭国珍,邹纲; 基于汉英双语语料库述宾短语的自动抽取 [A];第二届全国学生计算语言学研讨会论文集 [C]; 2004年
3李素建,刘群; 汉语组块的定义和获取 [A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集 [C]; 2003年
4周强; 汉语部分分析研究 [A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集 [C]; 2003年
5 Chinese-English Quasi-equivalent Noun Phrase:Definition and Automatic Identification [A];Proceedings of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering [C]; 2005年
6马艳军,刘颖; 汉英准等价名词短语 [A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集 [C]; 2005年
7钱小飞,陈小荷; 含“的”字偏正结构的最长名词短语的自动识别 [A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集 [C]; 2007年
 【同被引文献】 共(455)篇 
 中国期刊全文数据库找到 10 条
 
1缪毅; 机械设计的常识性知识表示 [J];重庆交通学院学报; 1997年03期
2赵铁军,方高林,李生; 英语介词短语附着决策的研究 [J];高技术通讯; 2001年03期
3吕雅娟,李生,赵铁军,杨沐昀; 基于双语语料库的翻译等价对自动抽取 [J];高技术通讯; 2003年05期
4刘小冬,李学良,张蕾; 知识图综述 [J];工程数学学报; 2000年S1期
5林鸿飞,高天,姚天顺; 中文文本的可视化表示 [J];东北大学学报(自然科学版); 2000年05期
6沈阳; 领属范畴及领属性名词短语的句法作用 [J];北京大学学报(哲学社会科学版); 1995年05期
7党延忠; 基础研究学科发展的宏观知识挖掘 [J];管理工程学报; 2006年02期
8李珩,谭咏梅,朱靖波,姚天顺; 汉语组块识别 [J];东北大学学报(自然科学版); 2004年02期
9涂云杰; 基于规则的汉语短语标注探讨 [J];呼伦贝尔学院学报; 2002年02期
10萧璋; 论连动式和兼语式 [J];北京师范大学学报(社会科学版); 1956年00期
 中国优秀硕士学位论文全文数据库找到 3 条
 
1皮晓峰; 基于概率上下文无关语法的句法分析研究与实现 [D];电子科技大学; 2005年
2史中琦; 基于DCC动态流通报纸语料库的流通度词表和使用度词表的对比分析 [D];北京语言大学; 2005年
3由丽萍; 动词与动词搭配自动获取方法研究 [D];上海师范大学; 2003年
 中国博士学位论文全文数据库找到 8 条
 
1徐阳春; 关于虚词“的”及其相关问题研究 [D];复旦大学; 2003年
2徐建锁; 知识管理和文本挖掘的若干问题研究 [D];天津大学; 2004年
3周雪忠; 文本挖掘在中医药中的若干应用研究 [D];浙江大学; 2004年
4李芸; 信息科学和信息技术术语概念体系研究 [D];北京语言文化大学; 2003年
5张晓刚; 面向软件过程改进的知识管理技术研究 [D];中国科学院研究生院(软件研究所); 2004年
6李丹; 科学研究活动中的知识管理研究 [D];武汉大学; 2005年
7隋岩; 基于“动态流通语料库”的“有效字符串”提取研究 [D];北京语言大学; 2004年
8王强军; 基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究 [D];北京语言文化大学; 2003年
 中国重要会议论文全文数据库找到 10 条
 
1 第二届全国信息检索与内容安全学术会议(NCIRCS-2005)组织情况 [A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集 [C]; 2005年
2柏晓静,常宝宝,詹卫东,吴拥华; 构建大规模的汉英双语平行语料库 [A];机器翻译研究进展——2002年全国机器翻译研讨会论文集 [C]; 2002年
3徐时仪; 数据库建设与断代词典编纂 [A];中国辞书论集2000 [C]; 2000年
4郑家恒,杜永萍,宋礼鹏; 农业病虫害词汇获取方法初探 [A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集 [C]; 2003年
5周强,詹卫东,任海波; 构建大规模的汉语语块库 [A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集 [C]; 2001年
6张昱琪,周强; 大规模真实文本中汉语动词语法搭配模板的自动识别 [A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集 [C]; 2001年
7车万翔,刘挺,秦兵,李生; 面向依存文法分析的搭配抽取方法研究 [A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集 [C]; 2001年
8史中琦,张普; 基于DCC动态流通语料库的流行语类型分析 [A];第三届全国语言文字应用学术研讨会论文集 [C]; 2004年
9张普; 流通度在IT术语识别中的应用分析——关于术语、术语学、术语数据库的研究 [A];辉煌二十年——中国中文信息学会二十周年学术会议论文集 [C]; 2001年
10方芳,李斌; 基于语料库的数量名短语识别 [A];第三届学生计算语言学研讨会论文集 [C]; 2006年
 西文参考文献找到 10 条
 
1Taylor P, Black A; Assigning Phrase Breaks from part-of-speech Sequences [M];Computer Speech and Language; 1998年
2Pietra S D, Pietra V D, Lafferty J; Inducing features of random fields [M];IEEE Transactions on Pattern Analysis and Machine Intelligence; 1997年
3Berger A, Pietra S D, Pietra V D; A maximum entropy approach to natural language processing [M];Computational Linguistics; 1996年
4Darroch J N, Ratcliff D; Generalized iterative scaling for log-linear models [M];Annals of Mathematical Statistics; 1972年
5Marcus M P, Marcinkiewicz M A, Santorini B; Building a large annotated corpus of English: the penn treebank [M];Computational Linguistics; 1993年
6Shih H-H, Young S J, Waegner N P; An inference approach to grammar construction [M];Computer Speech and Language; 1995年
7Shigeru FUJIO, Yoshinori SAGISAKA, Norio HIGUCIH; Stochastic Modeling of Pause Insertion Using Context-Free Grammar [M];IEEE Transactions on Speech and Audio Processing; 1995年
8Church, K; A stochastic parts program and noun phrase parser for unrestricted text [M];; 1988年
9Cortes, C, Vapnik, V; Support-Vector Networks. Machine Learning [M];; 1995年
10Radu Florian, and Grace Ngai; Fast Transformation-Based Learning Toolkit [M];Johns Hopkins University, Technical report,; 2002年
 【二级引证文献】 共(146)篇 
 中国期刊全文数据库找到 10 条
 
1徐文莉; 基于最大熵方法的DaR风险度量模型 [J];安徽师范大学学报(自然科学版); 2007年01期
2张建莉; 基于《知网》语义知识的名词短语识别过程中的排歧 [J];福建电脑; 2006年04期
3吕琳,刘玉树; 最大熵和Brill方法结合识别英语BaseNPs [J];北京理工大学学报; 2006年06期
4凃云杰; 使用基于范例的方法进行汉语短语标注中范例库的建立过程 [J];呼伦贝尔学院学报; 2006年06期
5张仰森,曹元大,俞士汶; 最大熵方法中特征选择算法的改进与纠错排歧 [J];北京理工大学学报; 2006年01期
6梁颖红,毛蕾,赵铁军,徐冰,朱义勇; 英语基本名词短语识别向汉语的快速移植 [J];高技术通讯; 2004年12期
7卢玉敏; 未登录名词短语识别现状初探 [J];广西大学学报(自然科学版); 2007年S1期
8徐延勇,周献中,井祥鹤,郭忠伟; 基于最大熵模型的汉语句子分析 [J];电子学报; 2003年11期
9陈晓明,周渝; 汉语部分句法分析的研究和发展趋势 [J];贵州大学学报(自然科学版); 2004年04期
10蒋龙,周明,简立峰; 利用音译和网络挖掘翻译命名实体 [J];中文信息学报; 2007年01期
 中国优秀硕士学位论文全文数据库找到 10 条
 
1胡晓军; 基于自然汉语的数据库查询研究 [D];电子科技大学; 2006年
2李治国; 数据库自然语言通用接口技术的研究 [D];沈阳航空工业学院; 2007年
3周美希; 汉语语句组块及消歧的研究与实现 [D];电子科技大学; 2005年
4王越; 基于Ontology的Web政务资源的智能处理与应用 [D];山东大学; 2007年
5于浚涛; 基于最大熵的汉语介词短语自动识别 [D];大连理工大学; 2006年
6王莹莹; 汉语组块识别的研究 [D];大连理工大学; 2006年
7孟静; 面向句法分析的语块划分体系的研究 [D];山西大学; 2005年
8于鸿霞; 统计与规则相结合的中英文组块分析 [D];哈尔滨工业大学; 2006年
9廖先桃; 中文命名实体识别方法研究 [D];哈尔滨工业大学; 2006年
10张惠春; 面向框架语义的汉语短语自动识别研究 [D];山西大学; 2006年
 中国博士学位论文全文数据库找到 10 条
 
1胡春玲; 人机互动的多策略机器翻译系统中跟踪记忆机制的研究 [D];中国科学院研究生院(计算技术研究所); 2000年
2史艳岚; 基于中国主流报纸动态流通语料库的对外汉语报刊新闻主题词群及相关研究 [D];北京语言大学; 2006年
3冯敏萱; 论汉英平行语料的平行处理 [D];南京师范大学; 2006年
4马红妹; 汉英机器翻译中汉语上下文语境的表示与应用研究 [D];中国人民解放军国防科学技术大学; 2002年
5李素建; 汉语组块计算的若干研究 [D];中国科学院研究生院(计算技术研究所); 2002年
6韩秀娟; 基于动态流通语料库的通用词语用字研究及字词语关系考察 [D];北京语言大学; 2007年
7郑逢斌; 关于计算机理解自然查询语言的研究 [D];西南交通大学; 2004年
8姜韶华; 科研项目管理中的文本挖掘方法研究及应用 [D];大连理工大学; 2006年
9刘启和; 基于Rough集的知识发现及其在汉语处理中的应用 [D];电子科技大学; 2005年
10于满泉; 面向人物追踪的知识挖掘研究 [D];中国科学院研究生院(计算技术研究所); 2006年
 中国重要会议论文全文数据库找到 10 条
 
1吴云芳,常宝宝,詹卫东; 汉英双语短语信息数据库的构建 [A];第一届学生计算语言学研讨会论文集 [C]; 2002年
2徐昉,宗成庆; 汉语base NP识别:错误驱动的组合分类器方法 [A];第三届学生计算语言学研讨会论文集 [C]; 2006年
3尚英; 动词重叠形式的自动识别方法研究 [A];第二届全国学生计算语言学研讨会论文集 [C]; 2004年
4钱揖丽,张虎; 汉语分词及词性标注自动校验方法研究 [A];第一届学生计算语言学研讨会论文集 [C]; 2002年
5宋慧曼,程葳; 关于双语语块规范的几个问题 [A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集 [C]; 2007年
6程葳,邱立坤; 限定领域汉英口语双语语块库的构建 [A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集 [C]; 2006年
7赵永贞,刘挺,王志伟,陈惠鹏,邵艳秋; 汉语文语转换系统中停顿标注的研究 [A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages [C]; 2003年
8张仰森,曹元大; 最大熵建模方法中一种改进的特征选择算法 [A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集 [C]; 2004年
9马艳军,刘颖; 基于隐马尔可夫模型和候选排序的汉语基本名词短语识别 [A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集 [C]; 2005年
10方高林,于浩; 最大熵语言模型及其在模式识别中新的应用 [A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集 [C]; 2005年
 【相似文献】 
 中国期刊全文数据库
 
1周强,孙茂松,黄昌宁; 汉语最长名词短语的自动识别 [J];软件学报; 2000年02期; 53-59
2冯冲,陈肇雄,黄河燕,张亮,王江伟; 基于条件随机域的复杂最长名词短语识别 [J];小型微型计算机系统; 2006年06期; 176-181
3谭峰; 一种基于小波变换的数字图像边沿检测方法 [J];内蒙古科技与经济; 2003年07期; 134-135
4刘文泽; 边界识别与计算机缩图 [J];气象; 1992年04期; 39-40+28
5徐杰,李晓虎,王荣本,施鹏飞; 车辆自主导航中的道路边界识别算法 [J];中国图象图形学报; 2003年06期; 78-82
6陈学东,张李超,黄树槐; 基于"内点"识别的多边形布尔运算 [J];计算机工程与科学; 2005年05期; 46-48
7石晶,戴国忠; 基于PLSA模型的文本分割 [J];计算机研究与发展; 2007年02期; 52-58
8余成; 彩色图样的扫描、分色与辨识 [J];自动化学报; 1992年04期; 116-119
9张奋,邹北骥; 基于多结构元素的图像边界识别方法研究 [J];计算机工程与设计; 2006年10期; 71-72+81
10赵博,李彦,禚玉群,佟会玲,陈昌和; 图像边界识别法对气液传质理论的实验研究 [J];工程热物理学报; 2005年S1期; 161-164
 中国优秀硕士学位论文全文数据库
 
1王姗姗; 统计蛇模型及其在医学图像分割中的应用 [D];青岛大学; 2005年
 中国重要会议论文全文数据库
 
1马艳军,刘颖; 汉英准等价名词短语 [A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集 [C]; 2005年
2 Chinese-English Quasi-equivalent Noun Phrase:Definition and Automatic Identification [A];Proceedings of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering [C]; 2005年
3王立霞; 现代汉语介词短语边界识别研究 [A];第二届全国学生计算语言学研讨会论文集 [C]; 2004年
 相关期刊
 >  电脑爱好者
 >  电脑编程技巧与维护
 >  电脑开发与应用
 >  电脑学习
 >  电脑与信息技术
 >  福建电脑
 >  个人电脑
 >  Journal of Computer Science and Technology
 >  计算机辅助工程
 >  计算机工程与科学
 >  计算机工程与设计
 >  计算机时代
 >  计算机系统应用
 >  计算机应用研究
 >  计算机应用与软件
 >  计算机与现代化
 >  微计算机应用
 >  微型电脑应用
 >  现代计算机(专业版)
 相关机构
 > 智能技术与系统国家重点实验室
 > 清华大学计算机科学与技术系
 > 中国科学技术大学计算机科学与技术系
 > 中国科学院计算机语言信息工程研究中心
 > 南京理工大学计算机系
 > 江苏南京
 > 安徽合肥
 > 北京
 > 黑龙江八一农垦大学自控系
 > 中国气象科学研究院
 > 上海交通大学图象处理和模式识别研究所
 > 东南大学机械工程系
 > 吉林大学交通学院
 > 南京
 > 长春
 > 上海
 > 华中科技大学塑性成型模拟与模具技术国家重点实验室
 > 湖北
 > 中国科学院软件研究所人机交互技术与智能信息处理实验室
 > 东莞理工学院电子系
 > 湖南文理学院计算机系
 > 中南大学信息与工程学院
 > 湖南长沙
 > 湖南常德
 > 清华大学热能工程系
 相关作者
 > 周强
 > 黄昌宁
 > 陈肇雄
 > 张亮
 > 谭峰
 > 徐杰
 > 王荣本
 > 陈学东
 > 黄树槐
 > 戴国忠
 > 张奋
 > 赵博
 > 禚玉群
 > 陈昌和
 > 孙茂松
 > 冯冲
 > 黄河燕
 > 王江伟
 > 刘文泽
 > 李晓虎
 > 施鹏飞
 > 张李超
 > 石晶
 > 余成
 > 邹北骥
 > 李彦
 > 佟会玲
关于知网 | CNKI导报 | 知识产权声明 | 联系我们 | 知网招商
京ICP证040431号 京ICP证040441号 互联网出版许可证新出网证(京)字008号
售卡热线:800-810-6613、010-62789720、010-62773682
售后服务:800-810-1436(限座机拨打) 010-62791813、010-62783978
招商热线: 010-62772106 投诉电话:010-62791994 2007 中国知网(cnki)