收藏本站
《中文信息学报》 1999年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

高频最大交集型歧义切分字段在汉语自动分词中的作用

孙茂松  左正平  邹嘉彦  
【摘要】:交集型歧义切分字段是影响汉语自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真、伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619个的覆盖率为59.20%,且覆盖率受领域变化的影响不大。而其中4,279个为伪歧义型,覆盖率高达53.35%。根据以上分析,我们提出了一种基于记忆的、高频最大交集型歧义切分字段的处理策略,可有效改善实用型非受限汉语自动分词系统的精度。

知网文化
【相似文献】
中国硕士学位论文全文数据库 前1条
1 刘韬;位置服务中的中文自动分词技术研究与应用[D];浙江大学;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978