收藏本站
《情报杂志》 2008年05期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于条件随机场的中文分词方法

迟呈英  于长远  战学刚  
【摘要】:提出了一种基于条件随机场(Conditional Random Fields,简称CRF)的中文分词方法。CRF模型利用词的上下文信息,对歧义词和未登陆词进行分词统计处理取得了理想的效果。以SIGHAN2006 Chinese Language ProcessingBakeoff提供的数据作为实验数据。实验数据表明,基于CRF的中文分词方法取得了很好的效果,在Uppen,Msra两种语料的封闭测试中准确率分别达到了95.8%和95.9%。
【作者单位】辽宁科技大学 辽宁科技大学 辽宁科技大学
【分类号】:H085

【引证文献】
中国期刊全文数据库 前5条
1 姜文志;顾佼佼;胡文萱;栗飞;;条件随机场模型的应用研究及改进[J];计算机与现代化;2011年11期
2 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[J];中文信息学报;2010年01期
3 康旭珍;李茹;李双红;;框架元素语义核心词自动识别研究[J];中文信息学报;2011年04期
4 姜文志;顾佼佼;丛林虎;;CRF与规则相结合的军事命名实体识别研究[J];指挥控制与仿真;2011年04期
5 宋立峰;;中文分词算法在专利文献中的应用研究[J];海峡科学;2011年07期
中国重要会议论文全文数据库 前2条
1 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 康旭珍;李双红;李茹;;框架元素语义核心词自动识别研究[A];第六届全国信息检索学术会议论文集[C];2010年
中国硕士学位论文全文数据库 前6条
1 顾铖;图情档术语自动提取研究[D];南京大学;2011年
2 康旭珍;框架元素语义核心词自动识别研究[D];山西大学;2011年
3 颜军;基于条件随机场的中文分词研究与应用[D];武汉理工大学;2009年
4 王生辉;基于领域特征的Web数据实体抽取的研究[D];山东大学;2009年
5 李宏波;综合字典和统计分析的中文分词系统的研究与实现[D];武汉理工大学;2010年
6 吴志隆;信息处理用“一X”词的自动识别与消歧研究[D];上海师范大学;2012年
【参考文献】
中国期刊全文数据库 前1条
1 周文帅;冯速;;汉语分词技术研究现状与应用展望[J];山西师范大学学报(自然科学版);2006年01期
【共引文献】
中国期刊全文数据库 前10条
1 董妍汝;;中文分词技术在搜索引擎中的应用[J];办公自动化;2010年04期
2 王成平;;彝文信息处理自动分词技术的研究现状与难点分析[J];电脑知识与技术;2012年04期
3 明小娜;龙毅;钱程扬;张翎;;基于受限自然语言的GIS命令解析方法[J];地球信息科学学报;2009年02期
4 王希杰;;最大正向匹配分词算法的VC++实现[J];福建电脑;2011年04期
5 陈明华;殷景华;舒昌;王明江;;基于正反向最大匹配分词系统的实现[J];信息技术;2009年06期
6 王凡秀;王自强;;汉语自动分词技术研究[J];计算机与数字工程;2008年11期
7 熊泉浩;;中文分词现状及未来发展[J];科技广场;2009年11期
8 王成平;金骋;;基于既定词表的彝文自动分词技术研究[J];科学技术与工程;2012年10期
9 熊回香;夏立新;;汉语分词技术综述[J];图书情报工作;2008年04期
10 王成平;;彝文自动分词系统的设计与实现[J];中国西部科技;2012年03期
中国博士学位论文全文数据库 前1条
1 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
中国硕士学位论文全文数据库 前10条
1 史迎馨;建筑图中有限自然语言的分析与理解的研究[D];长春工业大学;2010年
2 张朝威;面向企业竞争情报的主题搜索研究与实现[D];西安电子科技大学;2010年
3 刘永信;主题搜索与Web挖掘的研究及系统实现[D];西安电子科技大学;2009年
4 段江丽;基于SVM的文本分类系统中特征选择与权重计算算法的研究[D];太原理工大学;2011年
5 魏莎莎;一种中文未登录词识别及词典设计新方法[D];西南大学;2011年
6 赵娟娟;基于特征聚类的文本分类算法研究[D];华南理工大学;2011年
7 李悦;基于LUCENE的军用文书检索系统的研究与设计[D];中国石油大学;2010年
8 付敏;一个改进的中文分词算法及其在Lucene中的应用[D];华中科技大学;2010年
9 刘小荣;基于聚类分析的图模型文本分类[D];内蒙古科技大学;2011年
10 王浩成;基于细菌觅食优化的k-medoids文本聚类方法[D];河北大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
2 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
3 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
4 张锋;樊孝忠;许云;;Chinese Term Extraction Based on PAT Tree[J];Journal of Beijing Institute of Technology(English Edition);2006年02期
5 刘红妮;;关于“一律”词汇化、语法化演变过程的认知与阐释[J];西华大学学报(哲学社会科学版);2007年06期
6 符淮青;;词在组合中语义范畴的变化和词性标注——以“一”、“是”为例[J];辞书研究;2010年05期
7 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
8 吴云芳;;并列成分中心语语义相似性考察[J];当代语言学;2005年04期
9 昝红英;朱学锋;;面向自然语言处理的汉语虚词研究与广义虚词知识库构建[J];当代语言学;2009年02期
10 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
中国重要会议论文全文数据库 前1条
1 康旭珍;李双红;李茹;;框架元素语义核心词自动识别研究[A];第六届全国信息检索学术会议论文集[C];2010年
中国硕士学位论文全文数据库 前10条
1 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
2 郑秀玲;“不X是”字串分词歧解及消歧策略[D];上海师范大学;2011年
3 李士军;表持续义“一X”类双音词的多角度考察[D];上海师范大学;2011年
4 刘建舟;术语自动抽取系统的设计及关键技术研究[D];华中师范大学;2004年
5 张勇;中文术语自动抽取相关方法研究[D];华中师范大学;2006年
6 刘宽;现代汉语自动分词歧义分析及其消歧处理研究[D];兰州理工大学;2006年
7 刘志红;说“一A”[D];广西师范大学;2007年
8 白鹏洲;基于框架语义标注的Web信息抽取技术研究[D];太原理工大学;2008年
9 张楠;论“一”的意义、分布及功能[D];北京师范大学;2008年
10 王东波;有标记联合结构的自动识别[D];南京师范大学;2008年
【二级引证文献】
中国期刊全文数据库 前5条
1 岳金媛;徐金安;张玉洁;;面向专利文献的汉语分词技术研究[J];北京大学学报(自然科学版);2013年01期
2 姜文志;顾佼佼;胡文萱;栗飞;;条件随机场模型的应用研究及改进[J];计算机与现代化;2011年11期
3 陈顺强;;彝文自动分词技术研究[J];中文信息学报;2011年03期
4 刘开瑛;;汉语框架语义网构建及其应用技术研究[J];中文信息学报;2011年06期
5 刘勇;王崇;;基于专业词典的带词长的中文分词技术的研究[J];科技信息;2012年34期
中国硕士学位论文全文数据库 前10条
1 魏莎莎;一种中文未登录词识别及词典设计新方法[D];西南大学;2011年
2 郭志华;基于字符属性的关系数据库零水印算法研究[D];兰州大学;2011年
3 何爱元;基于词典和概率统计的中文分词算法研究[D];辽宁大学;2011年
4 韩月阳;基于S-EK图最短路径中文分词的研究[D];云南大学;2011年
5 康旭珍;框架元素语义核心词自动识别研究[D];山西大学;2011年
6 苏丹;基于半监督学习的汉语韵律短语预测研究[D];天津师范大学;2012年
7 代聪;基于英汉平行语料的中文分词研究与应用[D];大连理工大学;2012年
8 曹东;面向人事管理的智能填表系统的研究与设计[D];华南理工大学;2012年
9 吴志隆;信息处理用“一X”词的自动识别与消歧研究[D];上海师范大学;2012年
10 岳金媛;面向专利文献的汉语分词技术研究[D];北京交通大学;2013年
【二级参考文献】
中国期刊全文数据库 前7条
1 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
2 韩客松,王永成,陈桂林;汉语语言的无词典分词模型系统[J];计算机应用研究;1999年10期
3 李蓉,刘少辉,叶世伟,史忠植;基于SVM和k-NN结合的汉语交集型歧义切分方法[J];中文信息学报;2001年06期
4 李家福,张亚非;基于EM算法的汉语自动分词方法[J];情报学报;2002年03期
5 刘颖;用隐马尔柯夫模型对汉语进行切分和标注排歧[J];计算机工程与设计;2001年04期
6 文庭孝,邱均平,侯经川;汉语自动分词研究展望[J];现代图书情报技术;2004年07期
7 李家福,张亚非;一种基于概率模型的分词系统[J];系统仿真学报;2002年05期
【相似文献】
中国期刊全文数据库 前10条
1 陈向阳;歧义词加工研究的进展[J];湖南师范大学社会科学学报;2000年01期
2 何华,陈永明;视野分离速示条件下歧义词意义判断研究[J];心理科学;2003年01期
3 浜涛;怎样分化歧义词组“他不能写”[J];汉语学习;1980年02期
4 宋广文,范连义;阅读理解中歧义词的认知研究[J];烟台师范学院学报(哲学社会科学版);2003年02期
5 辛竹;;歧义语[J];读书;1986年11期
6 吴彦文;歧义心理意义建构理论述论[J];天水师范学院学报;2004年01期
7 陈志旗;歧义词的修辞艺术[J];广州市财贸管理干部学院学报;2005年02期
8 武宁宁,舒华;句子语境中汉语词类歧义词的意义激活[J];心理学报;2002年05期
9 周治金,陈永明,杨丽霞;词汇歧义消解的研究概况[J];心理科学;2002年02期
10 罗国英;试论现代汉语中的歧义现象[J];贵州民族学院学报(哲学社会科学版);1999年01期
中国重要会议论文全文数据库 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 何赛克;王小捷;董远;张韬政;白雪;;归一化的邻接类别方法在基于条件随机场的中文分词中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 计峰;高沫;邱锡鹏;黄萱菁;;中文机构名简称的自动生成研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 代翠;周俏丽;蔡东风;;统计和规则相结合的汉语最长名词短语自动识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年
10 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
2 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
3 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
4 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年
5 记者 杨朝晖;医药搜索:不再“众里寻他千百度”[N];科技日报;2007年
6 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
7 王翌;互联网2005:个性化生存[N];计算机世界;2005年
8 张韬;谷歌推出“谷歌拼音”力拼百度[N];上海证券报;2007年
9 记者 李霆钧;国内首个“影视剧植入广告分析系统”出炉[N];中国电影报;2010年
10 王宾;加速争夺中国搜索市场[N];北京商报;2006年
中国博士学位论文全文数据库 前10条
1 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
2 任桂琴;句子语境中汉语词汇识别的即时加工研究[D];辽宁师范大学;2006年
3 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
4 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
5 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
6 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
7 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
8 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
9 禇一平;基于条件随机场模型的视频目标分割算法研究[D];浙江大学;2007年
10 许红涛;Web图像语义分析与自动标注研究[D];复旦大学;2009年
中国硕士学位论文全文数据库 前10条
1 李宏波;综合字典和统计分析的中文分词系统的研究与实现[D];武汉理工大学;2010年
2 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
3 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
4 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
5 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
6 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
7 李培国;基于人工神经网的中文垃圾邮件过滤器的设计与实现[D];暨南大学;2007年
8 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
9 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
10 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026