收藏本站
《中文信息学报》 2006年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于Multigram语言模型的主动学习中文分词

冯冲  陈肇雄  黄河燕  关真珍  
【摘要】:分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型,提出了一种基于置信度的主动学习分词算法,使得系统在主要利用大量未标注数据的同时,还能够主动选择少量最有价值的数据提交人工标注。实验结果表明算法性能优于相关的几种无督导分词算法。

手机知网App
【引证文献】
中国期刊全文数据库 前4条
1 冯永;贺迅;唐黎;陈显勇;陈贞;;面向文本知识管理的自适应中文分词算法[J];重庆大学学报;2010年10期
2 冯永;李华;钟将;叶春晓;;基于自适应中文分词和近似SVM的文本分类算法[J];计算机科学;2010年01期
3 巢文涵;李舟军;陈跃新;;一种用于机器翻译的相似句对检索方法[J];计算机工程与科学;2008年09期
4 李斌;陈小荷;;面向中文陌生文本的人机交互式分词方法[J];中文信息学报;2007年03期
中国重要会议论文全文数据库 前2条
1 李斌;陈小荷;;面向中文陌生文本的人机交互式分词方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 赵军;敖其尔;吉仁尼格;巩政;葡萄;陈建东;;基于统计语言模型蒙古文词汇分析校正器的设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前3条
1 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
2 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
3 袁彩霞;中文功能组块分析及应用研究[D];北京邮电大学;2009年
中国硕士学位论文全文数据库 前8条
1 柴宝杰;中文自动分词若干技术的研究[D];燕山大学;2007年
2 赵军;基于音节统计语言模型蒙古文词汇分析校正器的设计与实现[D];内蒙古大学;2007年
3 赵云峰;面向需求的构件适用性评价模型的研究[D];大连海事大学;2007年
4 史伟;中文自动分词关键技术研究与实现[D];电子科技大学;2008年
5 张剑锋;规则与统计相结合的中文分词方法研究[D];山西大学;2008年
6 刘春辉;基于优化最大匹配的中文分词方法研究[D];燕山大学;2009年
7 孙博雅;中文分词算法在GIS中的应用研究[D];中南大学;2011年
8 王秋红;极小化标注的海洋文献复杂分类[D];中国海洋大学;2011年
【参考文献】
中国期刊全文数据库 前1条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
【共引文献】
中国期刊全文数据库 前10条
1 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
2 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
3 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
4 王慧慧;;划分“11段”的思想在文本处理方面的研究[J];电脑知识与技术;2009年30期
5 卢玉敏;;未登录名词短语识别现状初探[J];广西大学学报(自然科学版);2007年S1期
6 孙士保;李保元;李天瑞;吴正江;郑瑞娟;;基于类内关键词的中文文本分类模型的改进[J];广西师范大学学报(自然科学版);2009年03期
7 王希杰;;最大正向匹配分词算法的VC++实现[J];福建电脑;2011年04期
8 曾华琳;周昌乐;郑旭玲;;A New Word Detection Method for Chinese Based on Local Context Information[J];Journal of Donghua University(English Edition);2010年02期
9 李文焘;;CCSS——一个彻底解决汉语分词的方案[J];湖北广播电视大学学报;2007年09期
10 吴育良;;百度中文分词技术浅析[J];河南图书馆学刊;2008年04期
中国重要会议论文全文数据库 前10条
1 王慧慧;杨国纬;;基于事例的问答系统研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
2 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
3 许超;陈小荷;;试评两种商用机译软件的汉语分析能力[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
4 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 王厚峰;;机器翻译中汉语词节点的识别[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 侯敏;陈琼璜;初田天;李湛;王瑜;叶立;;汉语自动分词中的上下文相关歧义字段(CSAS)研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 孙承杰;黄昌宁;关毅;;基于标注语料库的组合歧义检测与消解[A];第三届学生计算语言学研讨会论文集[C];2006年
9 张霄军;董宇;陈小荷;;基于语料考察的“组合型歧义”与“切分变异”辨析[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 石子夜;;置信分词——面向中分信息检索的分词模式[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
2 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
3 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
4 赵章界;短语结构制导的范畴表达式演算[D];中国科学院研究生院(计算技术研究所);2006年
5 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
6 史艳岚;基于中国主流报纸动态流通语料库的对外汉语报刊新闻主题词群及相关研究[D];北京语言大学;2006年
7 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
8 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
9 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
10 何琳;古农学本体的半自动构建及检索研究[D];南京农业大学;2007年
中国硕士学位论文全文数据库 前10条
1 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
2 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
3 王林平;基于内容的电子邮件过滤系统的研究[D];电子科技大学;2010年
4 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
5 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
6 刘冰凌;基于正向最大匹配算法的优化算法ImpFMMseg的实现[D];中南民族大学;2010年
7 桑亚辉;基于模板方法的汉语语句自动改写研究[D];解放军信息工程大学;2008年
8 付敏;一个改进的中文分词算法及其在Lucene中的应用[D];华中科技大学;2010年
9 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
10 章成志;基于文本层次模型的Web概念挖掘研究[D];南京农业大学;2002年
【同被引文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
3 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
4 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
5 钟义信;自然语言理解的全信息方法论[J];北京邮电大学学报;2004年04期
6 王明会,潘新安,钟义信;神经元网络用于拼音-汉字的转换[J];北京邮电大学学报;1994年02期
7 楚叶峰;;GIS的发展过程和发展趋势综述[J];长春大学学报;2008年12期
8 徐爱萍;边馥苓;;GIS中文查询系统中SQL语句的形成[J];测绘科学;2006年05期
9 龚健雅;李德仁;;论地球空间信息服务技术的发展[J];测绘通报;2008年05期
10 张家庆,张军;九十年代GIS软件系统设计的思考[J];测绘学报;1994年02期
中国博士学位论文全文数据库 前2条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
2 王燚;基于场景化知识表示的自然语言处理及其在自动文本校对中的应用[D];西南交通大学;2005年
中国硕士学位论文全文数据库 前10条
1 张小惠;构件技术在开发MIS中的应用研究[D];华中师范大学;2002年
2 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
3 张汇;基于贝叶斯的网页文本分类算法[D];华中科技大学;2004年
4 朱磊;自然语言处理之汉语文本自动校对[D];电子科技大学;2005年
5 代建英;汉语自动分词系统的研究与实现[D];重庆大学;2005年
6 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
7 王思力;面向大规模信息检索的中文分词技术研究[D];中国科学院研究生院(计算技术研究所);2006年
8 胡晓军;基于自然汉语的数据库查询研究[D];电子科技大学;2006年
9 肖雪;中文文本层次分类研究及其在唐诗分类中的应用[D];重庆大学;2006年
10 王志强;基于条件随机域的中文命名实体识别研究[D];南京理工大学;2006年
【二级引证文献】
中国期刊全文数据库 前7条
1 霍林;潘英花;王力;黄俊文;;分布式密文全文检索系统设计及安全性研究[J];广西大学学报(自然科学版);2010年06期
2 巩政;郝莉;杨旭华;;非标准蒙古文字符编码转换为国际编码的一种方法[J];内蒙古大学学报(自然科学版);2008年02期
3 任剑锋;梁雪;李淑红;;基于非线性流形学习和支持向量机的文本分类算法[J];计算机科学;2012年01期
4 索娟娟;于宝英;;基于灰熵的汉语机器翻译消歧研究[J];科技信息;2012年03期
5 普布旦增;欧珠;;藏文分词中交集型歧义字段的切分方法研究[J];西藏大学学报(社会科学版);2010年S1期
6 万莛;;最大匹配算法研究[J];微型机与应用;2012年08期
7 徐远方;李成城;;基于SVM和词间特征的新词识别研究[J];计算机技术与发展;2012年05期
中国重要会议论文全文数据库 前1条
1 石民;陈小荷;于丽丽;李斌;;基于CRF的古汉语分词标注一体化研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前1条
1 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
2 李晓红;中文文本分类技术研究[D];兰州理工大学;2009年
3 翟晓玲;面向学科的基础教育资源垂直搜索引擎的研究与实现[D];东北师范大学;2009年
4 张瑾;规则与统计相结合的蒙古文编码转换的研究与实现[D];内蒙古大学;2009年
5 岳莉;基于Lucene的全文检索系统的研究与应用[D];西安电子科技大学;2010年
6 周泓;基于统计面向领域的分词研究以及在产品设计中的应用[D];西安电子科技大学;2010年
7 常青;基于机器学习算法的Web文本挖掘应用研究[D];天津大学;2009年
8 王小青;中文文本分类特征选择方法研究[D];西南大学;2010年
9 陈航哲;基于Lucene的垂直搜索引擎的研究与应用[D];暨南大学;2010年
10 高欣;基于Lucene的全文检索系统的研究与实现[D];天津师范大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
2 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
3 刘源,梁南元;汉语处理的基础工程——现代汉语词频统计[J];中文信息学报;1986年01期
4 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
5 刘涌泉;再读词的问题[J];中文信息学报;1988年02期
6 李国臣,刘开瑛,张永奎;汉语自动分词及歧义组合结构的处理[J];中文信息学报;1988年03期
7 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
8 黄祥喜;书面汉语自动分词的“生成——测试”方法[J];中文信息学报;1989年04期
9 姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期
10 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
【相似文献】
中国期刊全文数据库 前10条
1 魏福官;郑孝安;;一种基于知识的书面汉语自动分词方法[J];现代电力;1993年04期
2 龙艳花;郭武;戴礼荣;;采用支持向量机的说话者确认中的样本平衡[J];中文信息学报;2008年03期
3 木合亚提·尼亚孜别克;古力沙吾利;;哈萨克文信息处理的现状和发展方向[J];中文信息学报;2010年04期
4 周程远;朱敏;杨云;;基于词典的中文分词算法研究[J];计算机与数字工程;2009年03期
5 罗杰;陈力;夏德麟;王凯;;基于新的关键词提取方法的快速文本分类系统[J];计算机应用研究;2006年04期
6 朱晓旭;李培峰;朱巧明;刁红军;;一个适用于手持设备的多层汉字输入法模型[J];中文信息学报;2006年06期
7 扎西加;珠杰;;面向信息处理的藏文分词规范研究[J];中文信息学报;2009年04期
8 干俊伟,黄德根;汉语介词短语的自动识别[J];中文信息学报;2005年04期
9 刘云峰,齐欢,Xiang’en Hu,Zhiqiang Cai;潜在语义分析权重计算的改进[J];中文信息学报;2005年06期
10 赵海;揭春雨;;基于有效子串标注的中文分词[J];中文信息学报;2007年05期
中国重要会议论文全文数据库 前10条
1 宋兰;孙茂松;;中文文本全文查重的实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 刘汇丹;芮建武;吴健;;藏文网页的编码识别与转换[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 徐印才;任立群;段元慧;任俊泉;;输血科智能管理系统的开发与应用[A];第四届全国临床检验学术会议论文汇编[C];2006年
4 丁力行;;2002年全国暖通空调计算机应用研讨会[A];2001年湖南省暖通空调制冷学术年会论文集[C];2001年
5 陈皓;郑利平;刘晓平;;模板在虚拟现实平台中的应用[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
6 于平;李汉彬;高长君;;应用ActiveX技术实现Surfer自动绘制等值线图[A];中国气象学会2007年年会天气预报预警和影响评估技术分会场论文集[C];2007年
7 何大治;谢步瀛;;基于子空间网络的人员疏散模型[A];中国图学新进展2007——第一届中国图学大会暨第十届华东六省一市工程图学学术年会论文集[C];2007年
8 缪峥红;周新蕾;;安全性关键软件的可靠性测试与安全性分析[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集(下册)[C];2006年
9 石素卿;;京郊新农村发展电子商务的障碍与对策[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集[C];2006年
10 柏艳平;赵银燕;肖田元;;基于XML的键合图模型交换及重用[A];第十届中国科协年会论文集(一)[C];2008年
中国重要报纸全文数据库 前10条
1 张玉花 (西华二中);转变教师教育观念 发挥学生主体作用[N];周口日报;2007年
2 刘韬武少民 陈晓钟;内地生,你在香港还好吗?[N];人民日报;2008年
3 尖扎县第二完全小学教师 法土美;浅谈小学数学教学中如何提高学生学习的主动性[N];黄南报;2007年
4 记者 和苗 余靖静;10岁大学生:大学不想再跳级[N];新华每日电讯;2006年
5 记者 高智虹;全国阅读活动打造“书香机关”[N];秦皇岛日报;2008年
6 民乐县逸夫小学 宋晓华;用爱心培养学生主动学习的兴趣[N];张掖日报;2005年
7 徐永荣;充分发挥高校辅导员教育引导作用[N];贵州日报;2007年
8 卜建设、卢山;市计算机应用学会成立[N];唐山劳动日报;2010年
9 记者 梁捷;我国中文信息处理技术从实验室走向全面应用[N];光明日报;2009年
10 姚双云 华中师范大学语言与语言教育研究中心;虚词知识库:中文信息处理的基石[N];中国社会科学报;2011年
中国博士学位论文全文数据库 前10条
1 陈守强;丁书文教授用药规律的计算机辅助分析[D];山东中医药大学;2005年
2 杨伟;邮运汽车运输组织优化与信息支持系统研究[D];西南交通大学;2005年
3 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
4 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
5 王利民;贝叶斯学习理论中若干问题的研究[D];吉林大学;2005年
6 由丽萍;构建现代汉语框架语义知识库技术研究[D];上海师范大学;2006年
7 段丹青;入侵检测算法及关键技术研究[D];中南大学;2007年
8 吴尉林;可移植的稳健口语理解方法研究[D];上海交通大学;2007年
9 周卫华;面向中文信息处理的现代汉语动宾语义搭配研究[D];华中师范大学;2007年
10 汪萌;基于机器学习方法的视频标注研究[D];中国科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 陶东成;基于Linux和XIM协议的中文输入法服务器的实现及其应用[D];苏州大学;2004年
2 罗忠毅;数字化中医古籍的理想模式及其相关问题研究[D];成都中医药大学;2005年
3 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
4 党兰学;汉字语法语义智能输入法总体设计与部分实现[D];河南大学;2006年
5 傅成宏;现代汉语兼语结构的自动识别[D];南京师范大学;2007年
6 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
7 曹林峰;中文文字差错率统计软件的实现[D];西安电子科技大学;2007年
8 刘桂梅;周有光语文改革思想研究[D];山东师范大学;2005年
9 张玉华;基于码本的输入法评测系统的设计和实现[D];苏州大学;2005年
10 杜莹;汉字语法语义智能输入法核心算法及实现技术[D];河南大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026