收藏本站
《北京邮电大学学报》 1997年04期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

无监督的动态分词方法

高军  陈锡先  
【摘要】:介绍了一种变长汉语语料自动分词方法,这种方法以信息理论中极限熵的概念为基础,运用汉字字串间最大似然度的概念,对汉语语料进行自动分词.讨论了这些方法的局限性,并列出了一些试验结果.
【作者单位】北京邮电大学电信工程学院
【分类号】:TP391

【引证文献】
中国期刊全文数据库 前2条
1 张启宇;朱玲;张雅萍;;中文分词算法研究综述[J];情报探索;2008年11期
2 张春霞,郝天永;汉语自动分词的研究现状与困难[J];系统仿真学报;2005年01期
中国博士学位论文全文数据库 前2条
1 乔林;基于多关键词检索的企业竞争情报搜集方法研究[D];中国科学技术大学;2006年
2 熊英;中文自然语言理解中基于条件随机场理论的词法分析研究[D];上海交通大学;2009年
中国硕士学位论文全文数据库 前10条
1 吕靖;互联网搜索词分类关键技术研究[D];浙江大学;2011年
2 王茹;交通术语与标准规范的符合性检测技术研究[D];长安大学;2011年
3 姜亚华;基于Hownet的汽车领域产品评论挖掘方法研究[D];哈尔滨工业大学;2011年
4 关真珍;基于半督导机器学习的分词算法的设计与实现[D];华中科技大学;2004年
5 王会芬;基于Web的网页聚类系统的研究与实现[D];天津大学;2005年
6 王懿;基于自然语言处理和机器学习的文本分类及其应用研究[D];中国科学院研究生院(成都计算机应用研究所);2006年
7 刘武;基于统计机器学习算法的汉语分词系统的研究[D];北京邮电大学;2006年
8 张桂林;中文文本自动分类系统的研究与实现[D];吉林大学;2007年
9 李家兵;交叉覆盖算法下文本分类的研究[D];安徽大学;2007年
10 王永景;面向文本识别流的自动校对算法研究[D];上海交通大学;2008年
【参考文献】
中国期刊全文数据库 前2条
1 郭进;统计语言模型及汉语音字转换的一些新结果[J];中文信息学报;1993年01期
2 万建成;语音代码──汉字智能转换研究[J];中文信息学报;1994年02期
【共引文献】
中国期刊全文数据库 前10条
1 章森;刘磊;刁麓弘;;基于混合语言模型的中文智能输入技术[J];北京工业大学学报;2007年09期
2 成华,尹宝林;一个拼音汉字自动转换系统的设计与实现[J];北京航空航天大学学报;1996年04期
3 张瑞强,王作英,陆大 ;关于汉语音字转换中语言模型零概率的问题[J];电子学报;1998年08期
4 杨小辉;;文字软件处理实论[J];电子世界;2012年07期
5 钟文青,徐秉铮;音字转换系统中字词频的智能调整[J];华南理工大学学报(自然科学版);1995年10期
6 刘秉权,王晓龙,王宇颖;一种多知识源汉语语言模型的研究与实现[J];计算机研究与发展;2002年02期
7 吴涛;张毛迪;陈传波;;一种改进的统计与后串最大匹配的中文分词算法研究[J];计算机工程与科学;2008年08期
8 章森;;基于混合字词网格的汉语音字转换问题的求解[J];计算机学报;2007年07期
9 张子荣,初敏;解决多音字字-音转换的一种统计学习方法[J];中文信息学报;2002年03期
10 陈一凡,朱亮;汉字键盘输入智能处理软件综述[J];中文信息学报;2003年02期
中国重要会议论文全文数据库 前3条
1 陈一凡;朱亮;;汉字键盘输入智能处理软件综述[A];中国中文信息学会汉字编码专业委员会第八届年会、中国计算机学会中文信息技术专业委员会第六届年会暨汉字输入技术与应用研讨会论文集[C];2002年
2 郑敏;蔡莲红;;一种新的基于规则的多音字自动注音方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 高军;陈锡先;;汉语语料中对未知词汇的自动提取[A];1998年中国智能自动化学术会议论文集(下册)[C];1998年
中国博士学位论文全文数据库 前1条
1 宗成庆;音字转换与句子规范化处理研究[D];中国科学院研究生院(计算技术研究所);1998年
中国硕士学位论文全文数据库 前10条
1 兰冲;基于统计规则的中文分词研究[D];西安电子科技大学;2011年
2 朱世猛;中文分词算法的研究与实现[D];电子科技大学;2011年
3 邢敏玲;基于网页分块的主题爬虫方法研究[D];重庆大学;2011年
4 郭扉扉;主观题自动评分技术研究[D];华中科技大学;2011年
5 吕继兴;嵌入式系统中汉字的数字输入技术研究[D];河北农业大学;2003年
6 戴石麟;汉字编码输入法研究[D];重庆大学;2005年
7 邓晶;整体/高频优先原理[D];中国科学院研究生院(计算技术研究所);1996年
8 潘阿荣;基于Windows Mobile的智能手机汉字输入法研究[D];哈尔滨工业大学;2006年
9 曲卫华;手机中文输入法的设计与实现[D];中国地质大学(北京);2007年
10 吴晓春;手持设备上整句输入系统的研究[D];苏州大学;2008年
【同被引文献】
中国期刊全文数据库 前10条
1 张燕平;提取特征规则的重复覆盖算法(RCA)[J];安徽大学学报(自然科学版);2002年02期
2 周宏宇;张政;;中文分词技术综述[J];安阳师范学院学报;2010年02期
3 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
4 谢新洲,包昌火,张燕;论企业竞争情报系统的建设[J];北京大学学报(哲学社会科学版);2001年06期
5 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
6 夏天,樊孝忠,刘林,骆正华;基于ALICE的汉语自然语言接口[J];北京理工大学学报;2004年10期
7 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
8 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
9 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
10 杨森;曹宝香;;基于SOA的分布式构件库系统的设计与实现[J];北京联合大学学报(自然科学版);2009年04期
中国重要会议论文全文数据库 前1条
1 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前4条
1 李刚;知识发现的图模型方法[D];中国科学院软件研究所;2001年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
4 王磊;支持向量机学习算法的若干问题研究[D];电子科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 汪克文;对等网络环境下信任模型的研究[D];辽宁师范大学;2010年
2 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
3 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
4 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
5 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
6 王朔;基于Chart算法的句法分析系统的设计与实现[D];湖南大学;2005年
7 周舫;汉语句子相似度计算方法及其应用的研究[D];河南大学;2005年
8 王懿;基于自然语言处理和机器学习的文本分类及其应用研究[D];中国科学院研究生院(成都计算机应用研究所);2006年
9 邹荣;大词汇量连续语音识别系统中统计语言模型的研究[D];北京邮电大学;2006年
10 何淑芳;基于BBS文本信息的中文自动分词系统的研究[D];中国海洋大学;2006年
【二级引证文献】
中国期刊全文数据库 前10条
1 张林曼;吴升;;地理编码系统中地名地址分词算法研究[J];测绘科学;2010年02期
2 陈频;;基于自然语言处理的中文科技论文特征提取研究[J];电脑知识与技术(学术交流);2007年16期
3 马婷婷;;中文自动分词系统概述[J];电脑知识与技术;2010年33期
4 黄小斌;余悦蒙;;一种词法分析与字标注分词结合的方法[J];电脑知识与技术;2012年08期
5 蒋永辉;;基于贝叶斯算法的垃圾短信过滤系统的设计与实现[J];电脑知识与技术;2012年15期
6 王一蕾;吴英杰;;基于数据量的文本分词算法选取的研究[J];福建电脑;2006年09期
7 许华;刘勇;;中文分词词典机制的研究[J];福建电脑;2010年03期
8 綦科;谢冬青;;基于内容的短信分类系统的设计与实现[J];广州大学学报(自然科学版);2011年05期
9 王鉴全;季绍波;;基于中文语法树的概念图挖掘研究[J];大连海事大学学报;2012年04期
10 曹月雷;纪文彦;贾斌;;词典与后缀数组相结合的中文分词方法[J];硅谷;2012年21期
中国重要会议论文全文数据库 前3条
1 刮俊杰;吴树国;伊胜伟;;基于词效应的中文术语提取方法[A];第三届中国智能计算大会论文集[C];2009年
2 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
3 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前10条
1 单建芳;面向事件的文本表示研究[D];上海大学;2012年
2 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
3 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年
4 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
5 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
6 刘政怡;中文整句智能输入方法研究[D];安徽大学;2007年
7 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
8 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
9 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
10 郝立柱;汉语文本自动分类[D];吉林大学;2008年
中国硕士学位论文全文数据库 前10条
1 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
2 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
3 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
4 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
5 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
6 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
7 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年
8 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年
9 吕靖;互联网搜索词分类关键技术研究[D];浙江大学;2011年
10 王冬娇;改进的语句相似度算法在问答系统中的应用研究[D];大连交通大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 杨长生;何志钧;;汉语同音词汇的辨析[J];计算机研究与发展;1987年01期
2 姚天顺;王宝库;曲卫芬;;鞍钢能源管理操作语言的状态分析方法[J];计算机研究与发展;1987年01期
3 钱培德;;论词汇输入处理技术[J];计算机研究与发展;1988年07期
4 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
5 鲁川,梁镇韩;信息处理用规则汉语[J];中文信息学报;1987年04期
6 俞士汶;中文输入中语法分析技术的应用[J];中文信息学报;1988年03期
7 丁天怀 ,汉字乐 ,蓝安东;汉语拼音词汇输入处理系统[J];中文信息学报;1989年01期
8 汤建华,徐近霈;利用句法、语义循环递归网络实现汉语拼音→汉字转换[J];中文信息学报;1989年04期
9 曹敏;计算机自动分析量词短语的方法及规则[J];中文信息学报;1990年01期
10 仲兴国;多词组一次性拼音·汉字变换[J];中文信息学报;1990年02期
【相似文献】
中国期刊全文数据库 前10条
1 梅勇,王群生,徐秉铮;基于 FoxPro for Windows 的汉语语料库系统的构造[J];华南理工大学学报(自然科学版);1998年01期
2 张跃,姚天顺;基于结合性自动识别中文姓名[J];小型微型计算机系统;1997年10期
3 曹焕光,郑家恒;自动分词软件质量的评价模型[J];中文信息学报;1992年04期
4 王玮,蔡莲红;关联规则在汉语词属性中的研究[J];计算机工程与应用;2001年05期
5 肖文辉;;基于MySQL的全文检索系统的研究与应用[J];广西质量监督导报;2008年06期
6 肖克曦;;在线英语语料库自动分词和分句的实现[J];电脑知识与技术;2010年28期
7 李家福,张亚非;一种基于概率模型的分词系统[J];系统仿真学报;2002年05期
8 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
9 许云,樊孝忠,张锋;一种不需分词的中文文本分类方法[J];北京理工大学学报;2005年09期
10 陈福生;;全文检索在网站搜索系统中的应用[J];电脑编程技巧与维护;2009年12期
中国重要会议论文全文数据库 前10条
1 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 诺明花;张立强;刘汇丹;吴健;丁治明;;汉藏短语抽取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
3 曲维光;;分词系统计量研究与改进方案[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 李正华;车万翔;刘挺;;基于XML的语言技术平台[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 吴金星;长青;;蒙古语语料库基本加工规范初探[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 陈肖霞;王霞;;对朗读语料的音素标注与研究[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
7 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
8 李怡平;吴飞;;多语言环境下的分布式互联网分词平台[A];第十六届全国数据库学术会议论文集[C];1999年
9 孟凡东;徐金安;姜文斌;刘群;;异种语料融合方法:基于统计的中文词法分析应用[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 刘开瑛;由丽萍;;基于语料库的汉语辞书编纂系统[A];2004年辞书与数字化研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 王一民;进入网站叫“登录”还是“登陆”?[N];语言文字周报;2010年
2 高岚;海量在线做搜索引擎“卖水人”[N];中国计算机报;2004年
3 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
4 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
5 ;语言信息处理呼唤知识应用[N];中国计算机报;2003年
6 佟文柱;语料更实 题材更广 语速更快[N];中国教师报;2002年
7 顾曰国;语料库语言学的发展[N];中国社会科学院院报;2003年
8 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
9 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
10 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
中国博士学位论文全文数据库 前10条
1 吴为民;汉语性别词研究[D];西南大学;2011年
2 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
3 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
4 向二兰;汉英助动词句法比较研究[D];华中师范大学;2011年
5 王君泽;基于大规模问答语料的问题检索系统[D];华中科技大学;2010年
6 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
7 刘朝华;布依语汉语名量词对比研究[D];中央民族大学;2012年
8 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
9 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
10 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
中国硕士学位论文全文数据库 前10条
1 刘东生;面向专利文献的中文分词技术的研究[D];沈阳航空工业学院;2010年
2 邹小宇;基于北京大学汉语语料库的名词转类形容词研究[D];北京交通大学;2012年
3 郑秀玲;“不X是”字串分词歧解及消歧策略[D];上海师范大学;2011年
4 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
5 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
6 赵春红;外包数据库模型中文本数据完整性检测方案的研究[D];燕山大学;2010年
7 卢育红;半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)[D];北京交通大学;2011年
8 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
9 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
10 张楚屏;从分词的静词作用看分词在计算机英语中的翻译方法[D];华中科技大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026