| | | | | 汉语最长名词短语的自动识别 | | | 周强,孙茂松,黄昌宁 | | | 通过对包含 5573个汉语句子的语料文本中的最长名词短语的分布特点的统计分析 ,提出了两种有效的汉语最长名词短语自动识别算法 :基于边界分布概率的识别算法和基于内部结构组合的识别算法 .实验结果显示 ,后者的识别正确率和召回率分别达到了 85.4 %和 82 .3% ,取得了较好的自动识别效果 .关键词 最长名词短语 ,边界识别 ,句法分析 . 【作者单位】:智能技术与系统国家重点实验室!北京100084;清华大学计算机科学与技术系!北京100084 【关键词】:最长名词短语;边界识别;句法分析 【基金】:国家自然科学基金! (No.6 970 5 0 0 5 );中国博士后科学基金! (No.970 0 5 )资助 【分类号】:TP391.1 【DOI】:cnki:ISSN:1000-9825.0.2000-02-007 【正文快照】: 在自然语言句子的理解过程中 ,能否准确地识别其中的名词短语 (np)起着很重要的作用 .按照认知科学的观点 ,人类必须首先识别、学习和理解文本中的实体 (entity)或者概念 (具体的或抽象的 ) ,才能很好地理解自然语言文本 ,而这些实体和概念大都是由文本句子中的名词短语所描述的 .因此 ,如果我们掌握了文本中的名词短语 ,就可以在很大程度上把握文本所表达的主要意思 .从组成结构上看 ,句子中的名词短语可分为以下 3类 :(1)最短名词短语 (minimal noun phrase,简称m NP) :不包含其他任何名词短语的名词短语 ;(2 )最长名词短语 (maximal nou… | | | 推荐 CAJ下载 PDF下载 | | | CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式 | | | | Automatic Identification of Chinese Maximal Noun Phrases | | | ZHOU Qiang SUN Mao song HUANG Chang ning(State Key Laboratory of Intelligent Technology and Systems\ Beijing 100084) (Department of Computer Science and Technology Tsinghua University Beijing 100084) | | | Based on the statistical characteristics of Chinese maximal noun phrases (MNPs) in a Chinese corpus with 5 573 sentences, two efficient identifying algorithms for Chinese MNPs: (1) To identify MNPs by using boundary distribution probabilities; (2) To identify MNPs by using internal structure rules, are proposed in this paper. Experimental results show better performances: precision 85.4% and recall 82.3%, by using identifying algorithm (2). 【Keyword】:Maximal noun phrase, boundary identification, syntax parsing. |
| | | | | | 1 | 牛正雨,柴佩琪; 基于边界点词性特征统计的韵律短语切分 [J];中文信息学报; 2001年05期 | | 2 | 奚建清,罗强; 基于HMM的汉语介词短语自动识别研究 [J];计算机工程; 2007年03期 | | 3 | 刘冬明,赵军,杨尔弘; 汉英双语语料库中名词短语的自动对应 [J];中文信息学报; 2003年05期 | | 4 | 周雅倩,郭以昆,黄萱菁,吴立德; 基于最大熵方法的中英文基本名词短语识别 [J];计算机研究与发展; 2003年03期 | | 5 | 周强,孙茂松,黄昌宁; 汉语句子的组块分析体系 [J];计算机学报; 1999年11期 | | 6 | 李素建,刘群,杨志峰; 基于最大熵模型的组块分析 [J];计算机学报; 2003年12期 | | 7 | 李素建,刘群,白硕; 统计和规则相结合的汉语组块分析 [J];计算机研究与发展; 2002年04期 | | 8 | 姜韶华,党延忠; 无词典中英文混合术语抽取及算法研究 [J];情报学报; 2006年03期 | | 9 | 姜韶华,党延忠,宣照国; 无词典抽词的RMMFS和BMMFS方法及其比较研究 [J];情报学报; 2006年04期 | | 10 | 钱小飞; “地”字结构识别 [J];现代语文(语言研究版); 2006年05期 |
|
| | | | | | 1 | 缪毅; 机械设计的常识性知识表示 [J];重庆交通学院学报; 1997年03期 | | 2 | 赵铁军,方高林,李生; 英语介词短语附着决策的研究 [J];高技术通讯; 2001年03期 | | 3 | 吕雅娟,李生,赵铁军,杨沐昀; 基于双语语料库的翻译等价对自动抽取 [J];高技术通讯; 2003年05期 | | 4 | 刘小冬,李学良,张蕾; 知识图综述 [J];工程数学学报; 2000年S1期 | | 5 | 林鸿飞,高天,姚天顺; 中文文本的可视化表示 [J];东北大学学报(自然科学版); 2000年05期 | | 6 | 沈阳; 领属范畴及领属性名词短语的句法作用 [J];北京大学学报(哲学社会科学版); 1995年05期 | | 7 | 党延忠; 基础研究学科发展的宏观知识挖掘 [J];管理工程学报; 2006年02期 | | 8 | 李珩,谭咏梅,朱靖波,姚天顺; 汉语组块识别 [J];东北大学学报(自然科学版); 2004年02期 | | 9 | 涂云杰; 基于规则的汉语短语标注探讨 [J];呼伦贝尔学院学报; 2002年02期 | | 10 | 萧璋; 论连动式和兼语式 [J];北京师范大学学报(社会科学版); 1956年00期 |
|
| | | | | | 1 | 第二届全国信息检索与内容安全学术会议(NCIRCS-2005)组织情况 [A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集 [C]; 2005年 | | 2 | 柏晓静,常宝宝,詹卫东,吴拥华; 构建大规模的汉英双语平行语料库 [A];机器翻译研究进展——2002年全国机器翻译研讨会论文集 [C]; 2002年 | | 3 | 徐时仪; 数据库建设与断代词典编纂 [A];中国辞书论集2000 [C]; 2000年 | | 4 | 郑家恒,杜永萍,宋礼鹏; 农业病虫害词汇获取方法初探 [A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集 [C]; 2003年 | | 5 | 周强,詹卫东,任海波; 构建大规模的汉语语块库 [A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集 [C]; 2001年 | | 6 | 张昱琪,周强; 大规模真实文本中汉语动词语法搭配模板的自动识别 [A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集 [C]; 2001年 | | 7 | 车万翔,刘挺,秦兵,李生; 面向依存文法分析的搭配抽取方法研究 [A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集 [C]; 2001年 | | 8 | 史中琦,张普; 基于DCC动态流通语料库的流行语类型分析 [A];第三届全国语言文字应用学术研讨会论文集 [C]; 2004年 | | 9 | 张普; 流通度在IT术语识别中的应用分析——关于术语、术语学、术语数据库的研究 [A];辉煌二十年——中国中文信息学会二十周年学术会议论文集 [C]; 2001年 | | 10 | 方芳,李斌; 基于语料库的数量名短语识别 [A];第三届学生计算语言学研讨会论文集 [C]; 2006年 |
|
| | | | | | 1 | Taylor P, Black A; Assigning Phrase Breaks from part-of-speech Sequences [M];Computer Speech and Language; 1998年 | | 2 | Pietra S D, Pietra V D, Lafferty J; Inducing features of random fields [M];IEEE Transactions on Pattern Analysis and Machine Intelligence; 1997年 | | 3 | Berger A, Pietra S D, Pietra V D; A maximum entropy approach to natural language processing [M];Computational Linguistics; 1996年 | | 4 | Darroch J N, Ratcliff D; Generalized iterative scaling for log-linear models [M];Annals of Mathematical Statistics; 1972年 | | 5 | Marcus M P, Marcinkiewicz M A, Santorini B; Building a large annotated corpus of English: the penn treebank [M];Computational Linguistics; 1993年 | | 6 | Shih H-H, Young S J, Waegner N P; An inference approach to grammar construction [M];Computer Speech and Language; 1995年 | | 7 | Shigeru FUJIO, Yoshinori SAGISAKA, Norio HIGUCIH; Stochastic Modeling of Pause Insertion Using Context-Free Grammar [M];IEEE Transactions on Speech and Audio Processing; 1995年 | | 8 | Church, K; A stochastic parts program and noun phrase parser for unrestricted text [M];; 1988年 | | 9 | Cortes, C, Vapnik, V; Support-Vector Networks. Machine Learning [M];; 1995年 | | 10 | Radu Florian, and Grace Ngai; Fast Transformation-Based Learning Toolkit [M];Johns Hopkins University, Technical report,; 2002年 |
|
| | | | | | 1 | 徐文莉; 基于最大熵方法的DaR风险度量模型 [J];安徽师范大学学报(自然科学版); 2007年01期 | | 2 | 张建莉; 基于《知网》语义知识的名词短语识别过程中的排歧 [J];福建电脑; 2006年04期 | | 3 | 吕琳,刘玉树; 最大熵和Brill方法结合识别英语BaseNPs [J];北京理工大学学报; 2006年06期 | | 4 | 凃云杰; 使用基于范例的方法进行汉语短语标注中范例库的建立过程 [J];呼伦贝尔学院学报; 2006年06期 | | 5 | 张仰森,曹元大,俞士汶; 最大熵方法中特征选择算法的改进与纠错排歧 [J];北京理工大学学报; 2006年01期 | | 6 | 梁颖红,毛蕾,赵铁军,徐冰,朱义勇; 英语基本名词短语识别向汉语的快速移植 [J];高技术通讯; 2004年12期 | | 7 | 卢玉敏; 未登录名词短语识别现状初探 [J];广西大学学报(自然科学版); 2007年S1期 | | 8 | 徐延勇,周献中,井祥鹤,郭忠伟; 基于最大熵模型的汉语句子分析 [J];电子学报; 2003年11期 | | 9 | 陈晓明,周渝; 汉语部分句法分析的研究和发展趋势 [J];贵州大学学报(自然科学版); 2004年04期 | | 10 | 蒋龙,周明,简立峰; 利用音译和网络挖掘翻译命名实体 [J];中文信息学报; 2007年01期 |
|
| | | | | | 1 | 吴云芳,常宝宝,詹卫东; 汉英双语短语信息数据库的构建 [A];第一届学生计算语言学研讨会论文集 [C]; 2002年 | | 2 | 徐昉,宗成庆; 汉语base NP识别:错误驱动的组合分类器方法 [A];第三届学生计算语言学研讨会论文集 [C]; 2006年 | | 3 | 尚英; 动词重叠形式的自动识别方法研究 [A];第二届全国学生计算语言学研讨会论文集 [C]; 2004年 | | 4 | 钱揖丽,张虎; 汉语分词及词性标注自动校验方法研究 [A];第一届学生计算语言学研讨会论文集 [C]; 2002年 | | 5 | 宋慧曼,程葳; 关于双语语块规范的几个问题 [A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集 [C]; 2007年 | | 6 | 程葳,邱立坤; 限定领域汉英口语双语语块库的构建 [A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集 [C]; 2006年 | | 7 | 赵永贞,刘挺,王志伟,陈惠鹏,邵艳秋; 汉语文语转换系统中停顿标注的研究 [A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages [C]; 2003年 | | 8 | 张仰森,曹元大; 最大熵建模方法中一种改进的特征选择算法 [A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集 [C]; 2004年 | | 9 | 马艳军,刘颖; 基于隐马尔可夫模型和候选排序的汉语基本名词短语识别 [A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集 [C]; 2005年 | | 10 | 方高林,于浩; 最大熵语言模型及其在模式识别中新的应用 [A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集 [C]; 2005年 |
|
| | | | 1 | 周强,孙茂松,黄昌宁; 汉语句子的组块分析体系[J]; 计算机学报; 1999年11期; 39-46 | | 2 | 赵军,黄昌宁; 基于转换的汉语基本名词短语识别模型[J]; 中文信息学报; 1999年02期; 2-8+40 | | 3 | 奚晨海,孙茂松; 基于神经元网络的汉语短语边界识别[J]; 中文信息学报; 2002年02期; 20-26 | | 4 | 张昱琪,周强; 汉语基本短语的自动识别[J]; 中文信息学报; 2002年06期; 2-9 | | 5 | 孙茂松,左正平,黄昌宁; 消解中文三字长交集型分词歧义的算法[J]; 清华大学学报(自然科学版); 1999年05期; 102-104+108 | | 6 | 孙茂松,肖明,邹嘉彦; 基于无指导学习策略的无词表条件下的汉语自动分词[J]; 计算机学报; 2004年06期; 17-23 | | 7 | 孙茂松,左正平,黄昌宁; 汉语自动分词词典机制的实验研究[J]; 中文信息学报; 2000年01期; 1-6 | | 8 | 赵军,黄昌宁; 结合句法组成模板识别汉语基本名词短语的概率模型[J]; 计算机研究与发展; 1999年11期; 105-111 | | 9 | 赵军,黄昌宁; 汉语基本名词短语结构分析模型[J]; 计算机学报; 1999年02期; 30-35 | | 10 | 周强,黄昌宁; 基于局部优先的汉语句法分析方法[J]; 软件学报; 1999年01期; 2-7 |
|
| | | | | | 1 | 周强,孙茂松,黄昌宁; 汉语最长名词短语的自动识别 [J];软件学报; 2000年02期; 53-59 | | 2 | 冯冲,陈肇雄,黄河燕,张亮,王江伟; 基于条件随机域的复杂最长名词短语识别 [J];小型微型计算机系统; 2006年06期; 176-181 | | 3 | 谭峰; 一种基于小波变换的数字图像边沿检测方法 [J];内蒙古科技与经济; 2003年07期; 134-135 | | 4 | 刘文泽; 边界识别与计算机缩图 [J];气象; 1992年04期; 39-40+28 | | 5 | 徐杰,李晓虎,王荣本,施鹏飞; 车辆自主导航中的道路边界识别算法 [J];中国图象图形学报; 2003年06期; 78-82 | | 6 | 陈学东,张李超,黄树槐; 基于"内点"识别的多边形布尔运算 [J];计算机工程与科学; 2005年05期; 46-48 | | 7 | 石晶,戴国忠; 基于PLSA模型的文本分割 [J];计算机研究与发展; 2007年02期; 52-58 | | 8 | 余成; 彩色图样的扫描、分色与辨识 [J];自动化学报; 1992年04期; 116-119 | | 9 | 张奋,邹北骥; 基于多结构元素的图像边界识别方法研究 [J];计算机工程与设计; 2006年10期; 71-72+81 | | 10 | 赵博,李彦,禚玉群,佟会玲,陈昌和; 图像边界识别法对气液传质理论的实验研究 [J];工程热物理学报; 2005年S1期; 161-164 |
|
|
|