收藏本站
《中文信息学报》 2007年03期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

中文分词十年回顾

黄昌宁  赵海  
【摘要】:过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法,并使自动分词系统的精度达到了新高。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 赵海;揭春雨;;基于有效子串标注的中文分词[J];中文信息学报;2007年05期
2 麦范金;叶东海;史慧;;基于语义理解的垃圾邮件过滤处理研究[J];中文信息学报;2008年05期
3 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
4 李寿山;黄居仁;;基于词边界分类的中文分词方法[J];中文信息学报;2010年01期
5 关白;;信息处理用藏文分词单位研究[J];中文信息学报;2010年03期
6 李斌;陈小荷;方芳;徐艳华;;基于语料库的高频最大交集型歧义字段考察[J];中文信息学报;2006年01期
7 祁文青;;一种改进的中文分词算法[J];黄石理工学院学报;2007年04期
8 王思力;王斌;;基于双字耦合度的中文分词交叉歧义处理方法[J];中文信息学报;2007年05期
9 魏福官;郑孝安;;一种基于知识的书面汉语自动分词方法[J];现代电力;1993年04期
10 龙艳花;郭武;戴礼荣;;采用支持向量机的说话者确认中的样本平衡[J];中文信息学报;2008年03期
11 木合亚提·尼亚孜别克;古力沙吾利;;哈萨克文信息处理的现状和发展方向[J];中文信息学报;2010年04期
12 罗杰;陈力;夏德麟;王凯;;基于新的关键词提取方法的快速文本分类系统[J];计算机应用研究;2006年04期
13 朱晓旭;李培峰;朱巧明;刁红军;;一个适用于手持设备的多层汉字输入法模型[J];中文信息学报;2006年06期
14 姚兴山;;基于Hash算法的中文分词研究[J];现代图书情报技术;2008年03期
15 扎西加;珠杰;;面向信息处理的藏文分词规范研究[J];中文信息学报;2009年04期
16 干俊伟,黄德根;汉语介词短语的自动识别[J];中文信息学报;2005年04期
17 刘云峰,齐欢,Xiang’en Hu,Zhiqiang Cai;潜在语义分析权重计算的改进[J];中文信息学报;2005年06期
18 贾宁;张全;;基于句间关系的汉语语义块省略恢复[J];中文信息学报;2008年06期
19 黄娴;张克亮;;汉语零形回指研究综述[J];中文信息学报;2009年04期
20 马旭;徐蔚然;郭军;胡日勒;;SMS-2008标注中文短信息库[J];中文信息学报;2009年04期
中国重要会议论文全文数据库 前10条
1 宋兰;孙茂松;;中文文本全文查重的实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 刘汇丹;芮建武;吴健;;藏文网页的编码识别与转换[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 ;中国中文信息学会交流材料[A];2011年网络学术交流研讨会交流材料[C];2011年
4 徐印才;任立群;段元慧;任俊泉;;输血科智能管理系统的开发与应用[A];第四届全国临床检验学术会议论文汇编[C];2006年
5 丁力行;;2002年全国暖通空调计算机应用研讨会[A];2001年湖南省暖通空调制冷学术年会论文集[C];2001年
6 陈皓;郑利平;刘晓平;;模板在虚拟现实平台中的应用[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
7 于平;李汉彬;高长君;;应用ActiveX技术实现Surfer自动绘制等值线图[A];中国气象学会2007年年会天气预报预警和影响评估技术分会场论文集[C];2007年
8 何大治;谢步瀛;;基于子空间网络的人员疏散模型[A];中国图学新进展2007——第一届中国图学大会暨第十届华东六省一市工程图学学术年会论文集[C];2007年
9 缪峥红;周新蕾;;安全性关键软件的可靠性测试与安全性分析[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集(下册)[C];2006年
10 石素卿;;京郊新农村发展电子商务的障碍与对策[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 卜建设、卢山;市计算机应用学会成立[N];唐山劳动日报;2010年
2 记者 梁捷;我国中文信息处理技术从实验室走向全面应用[N];光明日报;2009年
3 姚双云 华中师范大学语言与语言教育研究中心;虚词知识库:中文信息处理的基石[N];中国社会科学报;2011年
4 倪光南;活力重现的中文信息处理[N];计算机世界;2001年
5 齐悦;速记界泰斗唐亚伟 获中文信息处理领域最高科技奖[N];中国质量报;2006年
6 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
7 张波 龙雨;中文信息处理国际学术会议在武汉大学召开[N];中国社会科学院院报;2007年
8 记者 段佳;中文信息处理技术加速前行[N];大众科技报;2009年
9 记者 韩晓玲通讯员 张波 龙雨;海内外专家聚焦中文信息处理[N];湖北日报;2007年
10 本报记者 毛国兵 通讯员 岚宇;亚伟速录:实现中文信息处理产业化的自主品牌[N];中国贸易报;2008年
中国博士学位论文全文数据库 前10条
1 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
2 陈守强;丁书文教授用药规律的计算机辅助分析[D];山东中医药大学;2005年
3 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
4 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
5 杨伟;邮运汽车运输组织优化与信息支持系统研究[D];西南交通大学;2005年
6 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
7 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
8 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
9 由丽萍;构建现代汉语框架语义知识库技术研究[D];上海师范大学;2006年
10 周卫华;面向中文信息处理的现代汉语动宾语义搭配研究[D];华中师范大学;2007年
中国硕士学位论文全文数据库 前10条
1 秦健;N-gram技术在中文词法分析中的应用研究[D];中国海洋大学;2009年
2 张剑锋;规则与统计相结合的中文分词方法研究[D];山西大学;2008年
3 郭庆贺;中文文本姓名识别的研究[D];东北师范大学;2009年
4 任红梅;分词连写的中文信息处理[D];中国石油大学;2007年
5 崔明明;基于机器学习的中文分词的研究与实现[D];沈阳工业大学;2009年
6 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
7 马志强;校园网搜索引擎核心技术—中文自动分词[D];北京机械工业学院;2006年
8 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
9 张淑梅;词典与后缀数组相结合的中文分词[D];吉林大学;2006年
10 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978