收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种基于字和子串联合标注的汉语分词方法

于江德  谷川  葛文英  樊孝忠  
【摘要】:近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列数据标注模型,基于字的词位标注汉语分词方法逐渐成为汉语分词的主要技术路线.针对一些领域文本中含有较多的英文词汇、缩写、数字等非汉字子串,提出了一种基于字和子串联合标注的汉语分词方法,该方法将子串看作和汉字等同的一个整体,采用四词位标注集,使用条件随机场模型深入研究了基于字和子串联合标注的汉语分词技术.在CIPS-SIGHAN2010汉语分词评测所提供的文学、计算机、医药、金融四个领域语料上进行了封闭测试,实验结果表明此方法比传统的字标注分词方法性能更好.

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 赵玉芹;刘琳;;条件随机场在手势识别中的应用研究[J];科技传播;2011年18期
2 朱莎莎;刘宗田;付剑锋;朱芳;;基于条件随机场的中文时间短语识别[J];计算机工程;2011年15期
3 刘莉;何中市;邢欣来;毛小丽;;基于语义角色的中文时间表达式识别[J];计算机应用研究;2011年07期
4 张春元;;基于条件随机场的文本分类模型[J];计算机技术与发展;2011年07期
5 赵晓凡;胡顺义;刘永革;;CRF模型中参数f在字标注汉语分词中的适用性研究[J];郑州大学学报(工学版);2011年04期
6 康旭珍;李茹;李双红;;框架元素语义核心词自动识别研究[J];中文信息学报;2011年04期
7 阳维;张树恒;王莲芸;张素;;基于图像块分类器和条件随机场的显微图像分割[J];计算机应用;2011年08期
8 高东平;;基于类型论的汉语分词系统TTCS[J];重庆理工大学学报(社会科学);2011年08期
9 史晓东;卢亚军;;央金藏文分词系统[J];中文信息学报;2011年04期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 李博渊;奚宁;黄书剑;张建兵;陈家骏;;一种适用于机器翻译的汉语分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 代翠;周俏丽;蔡东风;;统计和规则相结合的汉语最长名词短语自动识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 徐冰;姚建民;杨沐昀;赵铁军;;汉语分词在机器翻译评价中的影响[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 万升华;杨沐昀;李生;赵铁军;;基于字词混合翻译短语的统计机器翻译[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 王东波;陈小荷;年洪东;;基于条件随机场的有标记联合结构自动识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 徐薇;付滨;刘柳;苑春法;李文捷;;中文命名实体识别系统的领域扩展[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 付国宏;王晓龙;龚永红;;基于词形的汉语文本切分方法[A];第五届全国人机语音通讯学术会议论文集[C];1998年
10 李双龙;刘乐中;刘群;;利用单字碎片过滤改进汉语分词性能[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国博士学位论文全文数据库 前9条
1 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
2 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
3 禇一平;基于条件随机场模型的视频目标分割算法研究[D];浙江大学;2007年
4 许红涛;Web图像语义分析与自动标注研究[D];复旦大学;2009年
5 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
6 张奇;细颗粒度情感倾向分析若干关键问题研究[D];复旦大学;2008年
7 郁生阳;基于能量最小化图割的图像与视频目标精确分割研究[D];上海交通大学;2009年
8 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
9 李济洪;汉语框架语义角色的自动标注技术研究[D];山西大学;2010年
中国硕士学位论文全文数据库 前10条
1 于长远;应用条件随机场进行汉语分词和词性标注的研究[D];辽宁科技大学;2008年
2 沈勤中;基于条件随机场的汉语分词研究[D];苏州大学;2008年
3 颜军;基于条件随机场的中文分词研究与应用[D];武汉理工大学;2009年
4 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
5 柴桦;基于视频的人体运动识别方法研究[D];中南大学;2008年
6 王红雨;网络教学汉语答疑系统关键技术的研究与应用[D];大连理工大学;2006年
7 周波;汉语语言处理中专有名词的提取和识别[D];电子科技大学;2006年
8 李楠;基于遗传算法的汉语文本主题词提取研究[D];吉林大学;2007年
9 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
10 刘海鹏;面向手机短信的命名实体识别研究[D];北京邮电大学;2009年
中国重要报纸全文数据库 前1条
1 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978