基于概率统计技术和规则方法的新词发现
【摘要】:新词/短语的识别是自然语言处理、信息检索和机器翻译等领域的一项基础研究。该文分析了已有短语抽取技术,并结合汉语特点,提出了基于概率统计技术和规则方法相结合的概念抽取方法。该方法包括高效的“二元语法”统计模型、统计算法、统计选词策略、丰富的规则知识和规则过滤算法。实验证明该方法适用于从大规模语料库中自动高效地发现新词/短语。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|