收藏本站
《中文信息学报》 1998年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

串频统计和词形匹配相结合的汉语自动分词系统

刘挺  吴岩  王开铸  
【摘要】:本文介绍了一种汉语自动分词软件系统,该系统对原文进行三遍扫描:第一遍,利用切分标记将文本切分成汉字短串的序列;第二遍,根据各短串的每个子串在上下文中的频度计算其权值,权值大的子串视为候选词;第三遍,利用候选词集和一部常用词词典对汉字短串进行切分。实验表明,该分词系统的分词精度在1.5%左右,能够识别大部分生词,特别适用于文献检索等领域
【作者单位】哈尔滨工业大学计算机系
【分类号】:TP311,

手机知网App
【引证文献】
中国期刊全文数据库 前10条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
3 赵成龙,薛欣;基于WEB的智能答疑系统的设计与实现[J];安阳师范学院学报;2004年02期
4 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
5 季永华,许华虎,沈敏,万杰;自动答疑系统的研究与实现[J];计算机工程与应用;2005年14期
6 孙茂松,肖明,邹嘉彦;基于无指导学习策略的无词表条件下的汉语自动分词[J];计算机学报;2004年06期
7 陈耀东,王挺;基于有向图的双向匹配分词算法及实现[J];计算机应用;2005年06期
8 赵成龙,薛欣;基于Web的智能答疑系统的设计与实现[J];计算机工程与科学;2005年08期
9 谭旭,乐晓波,朱亨荣,陈荣元;基于语义和Hopfield网络的模糊汉字识别[J];计算机工程;2004年22期
10 周蕾;朱巧明;;基于统计和规则的未登录词识别方法研究[J];计算机工程;2007年08期
中国重要会议论文全文数据库 前6条
1 程涛;施水才;张玉杰;吕学强;;基于大规模语料库的新闻领域新词挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
3 朱江涛;蔡东风;张桂平;;一种基于网络的英文缩略语信息的自动抽取方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 郎君;刘挺;李生;张会鹏;;基于XML的开放式语言技术平台:LTP[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
5 郎君;刘挺;张会鹏;李生;;LTP:语言技术平台[A];第三届学生计算语言学研讨会论文集[C];2006年
6 曾依灵;许洪波;;网络热点信息发现研究[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
中国博士学位论文全文数据库 前7条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
2 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
3 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
4 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
5 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
6 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
7 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
中国硕士学位论文全文数据库 前10条
1 姜鹏;基于双数组的分词词典研究与实现[D];大连理工大学;2006年
2 马晓娜;用于考古数字博物馆的受限自然语言查询系统[D];山东大学;2005年
3 杨柳;中文文本分类技术研究[D];河北大学;2006年
4 何彬;网络化产品设计信息过滤器的设计与可靠性[D];武汉理工大学;2005年
5 庄明;装备发展战略研究信息化平台中汉语文本信息提取技术的研究[D];国防科学技术大学;2003年
6 李卫红;一种新的并发分词算法的研究与实现[D];山东大学;2005年
7 赵艳芳;面向Internet的个性化信息服务的研究[D];云南师范大学;2005年
8 程传鹏;基于分类的智能信息检索研究与实现[D];云南师范大学;2005年
9 周蕾;中文未登录词识别的研究及在汉字输入法中的应用[D];苏州大学;2005年
10 温滔;自适应歧义切分的汉语分词系统的设计与实现[D];苏州大学;2005年
【同被引文献】
中国期刊全文数据库 前10条
1 刘传菊,羿春岭,李剑峰;多媒体CAI专家系统[J];计算机工程与应用;1997年11期
2 徐晓丹;;中文网页自动摘要系统的研究[J];计算机与现代化;2006年09期
3 李道奇,马志军,钟珞,秦洪;数据仓库系统中元数据的研究与应用[J];武汉理工大学学报;2002年07期
4 亢世勇;《现代汉语新词语信息(电子)词典》的开发与应用[J];辞书研究;2001年02期
5 吕学强,张乐,黄志丹,胡俊峰;基于散列技术的快速子串归并算法[J];复旦学报(自然科学版);2004年05期
6 谢新洲,包昌火,张燕;论企业竞争情报系统的建设[J];北京大学学报(哲学社会科学版);2001年06期
7 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
8 李桂林,陈晓云;关于聚类分析中相似度的讨论[J];计算机工程与应用;2004年31期
9 张锋,许云,侯艳,樊孝忠;基于互信息的中文术语抽取系统[J];计算机应用研究;2005年05期
10 赵林,胡恬,黄萱菁,吴立德;基于知网的概念特征抽取方法[J];通信学报;2004年07期
中国重要会议论文全文数据库 前3条
1 方芳;冯敏萱;;含词尾的三字新词识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 侯敏;;语言监测与词语的计量研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 俞鸿魁;张华平;刘群;;基于角色标注的中文机构名识别[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
中国博士学位论文全文数据库 前10条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 李芸;信息科学和信息技术术语概念体系研究[D];北京语言文化大学;2003年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
5 张晓刚;面向软件过程改进的知识管理技术研究[D];中国科学院研究生院(软件研究所);2004年
6 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
7 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
8 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
9 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
10 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 张开松;基于Web技术的数据仓库研究与设计[D];武汉理工大学;2005年
2 崔世起;中文新词检测与分析[D];中国科学院研究生院(计算技术研究所);2006年
3 吕红良;基于大规模语料库的中文新词识别[D];大连理工大学;2008年
4 王省;基地统计和规则的中文姓名识别系统的研制[D];大连理工大学;2000年
5 高清霞;中文智能搜索引擎的设计与实现[D];北京工业大学;2000年
6 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
7 辛明海;个性化信息服务中的本体论自动分类和多Agent技术[D];华侨大学;2002年
8 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
9 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
10 谭义红;关联规则挖掘及其在概念检索中的应用研究[D];湖南大学;2003年
【二级引证文献】
中国期刊全文数据库 前10条
1 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
2 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
3 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
4 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
5 胡彧;苏雪峰;;特定主题的相关概念挖掘研究与实现[J];电脑开发与应用;2007年02期
6 马颖华,王永成,苏贵洋;一种在汉语文本中抽取重复字串的快速算法[J];电子学报;2002年S1期
7 吕学强,张乐,黄志丹,胡俊峰;基于散列技术的快速子串归并算法[J];复旦学报(自然科学版);2004年05期
8 刘晓英;汉语自动分词研究的发展趋势[J];高校图书馆工作;2005年04期
9 邸书灵,赵志宏,雷宇,姚雄伟;基于自然语言理解的ISO标准WEB智能咨询系统研究[J];河北工业大学学报;2004年05期
10 吴岩,李秀坤,刘挺,王开铸;中文自动校对系统的研究与实现[J];哈尔滨工业大学学报;2001年01期
中国重要会议论文全文数据库 前2条
1 马玉霞;黄德根;杨元生;;一种改进的中文姓名识别方法[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
2 余军;陈晓鸥;;命名实体识别:One-at-a-time or All-at-once?Word-based or Character-based?[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
2 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
3 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
4 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
5 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
6 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
7 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
8 彭强;复杂系统远程智能故障诊断技术研究[D];南京理工大学;2004年
9 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
10 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 张旭洁;基于语义网络的类自然语言的知识获取与转换的研究[D];云南师范大学;2006年
2 王倩倩;基于覆盖算法的中文垃圾邮件过滤[D];安徽大学;2007年
3 杨梅;网络舆情热点发现的研究[D];北京交通大学;2008年
4 胡业江;中文姓名自动识别技术研究[D];华侨大学;2005年
5 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
6 吴雪敏;汉语语句的计算机分析[D];电子科技大学;2001年
7 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
8 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
9 李清;一种基于动态知识库的搜索引擎的技术研究[D];暨南大学;2002年
10 章成志;基于文本层次模型的Web概念挖掘研究[D];南京农业大学;2002年
【相似文献】
中国期刊全文数据库 前10条
1 胡莉;;中文“词”的语言模型识别研究方法综述[J];北方文学(下半月);2011年03期
2 杨撼岳;陈笑蓉;郑高山;;水族文字笔形编码方法研究[J];计算机工程;2011年14期
3 彭成;季培培;;基于确定性退火的中文术语语义层次关联研究[J];计算机应用研究;2011年09期
4 张野;杨建林;;基于KNN和SVM的中文文本自动分类研究[J];情报科学;2011年09期
5 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
6 顾潇华;姜亦强;崔涛;;中文自动标引、全文检索及中文搜索引擎三者关系的探讨[J];图书馆学研究;2011年17期
7 张尊生;;《信息技术 信息交换用汉字编码字符集 基本集的扩充》和《信息技术 数字键盘汉字输入通用要求》国家标准发布[J];中国标准导报;2000年03期
8 赵晓凡;胡顺义;刘永革;;CRF模型中参数f在字标注汉语分词中的适用性研究[J];郑州大学学报(工学版);2011年04期
9 申兵一;巩青歌;;中文分词技术在搜索引擎中的应用研究[J];计算机与网络;2010年01期
10 谭魏璇;孔芳;倪吉;周国栋;;基于混合统计模型的中文基本名词短语识别[J];计算机应用与软件;2011年08期
中国重要会议论文全文数据库 前10条
1 李斌;陈小荷;;面向中文陌生文本的人机交互式分词方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 ;中国中文信息学会交流材料[A];2011年网络学术交流研讨会交流材料[C];2011年
4 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
5 ;前言[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 刘春荣;;我国当务之急是解决中文书写方式的根本变革[A];中国中文信息学会汉字编码专业委员会第九届年会暨学术研讨会论文集[C];2011年
7 孙承杰;黄昌宁;关毅;;基于标注语料库的组合歧义检测与消解[A];第三届学生计算语言学研讨会论文集[C];2006年
8 李竹;;中文信息处理与现代汉语词类研究[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
9 诺明花;张立强;刘汇丹;吴健;丁治明;;汉藏短语抽取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 李月雷;师瑞峰;林丽冰;周一民;;汉语语句语义相似度的计算方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
中国重要报纸全文数据库 前10条
1 记者 梁捷;我国中文信息处理技术从实验室走向全面应用[N];光明日报;2009年
2 姚双云 华中师范大学语言与语言教育研究中心;虚词知识库:中文信息处理的基石[N];中国社会科学报;2011年
3 张波 龙雨;中文信息处理国际学术会议在武汉大学召开[N];中国社会科学院院报;2007年
4 记者 韩晓玲通讯员 张波 龙雨;海内外专家聚焦中文信息处理[N];湖北日报;2007年
5 胡唯元;文字编码新标准:不再为“名”所累[N];科技日报;2006年
6 许伟;金友兵 破局国外办公套件垄断[N];中国企业报;2008年
7 ;浙江天宇信息技术有限公司[N];中国计算机报;2009年
8 中文信息学会课题组;如何提高国产手机汉字输入法的市场竞争力[N];语言文字周报;2007年
9 田梦;软件篇软件只是工具[N];计算机世界;2007年
10 梵欣;两项信息技术国家标准发布[N];中国包装报;2000年
中国博士学位论文全文数据库 前7条
1 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
2 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
3 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
4 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
5 梁添才;基于认知机理的汉字智能造字研究[D];华南理工大学;2008年
6 卢建平;基于拓扑学和统计学的无字库汉字智能造字研究[D];华南理工大学;2010年
7 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
2 党兰学;汉字语法语义智能输入法总体设计与部分实现[D];河南大学;2006年
3 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
4 曹林峰;中文文字差错率统计软件的实现[D];西安电子科技大学;2007年
5 张玉华;基于码本的输入法评测系统的设计和实现[D];苏州大学;2005年
6 杜莹;汉字语法语义智能输入法核心算法及实现技术[D];河南大学;2006年
7 徐瑞;一个中文语义语料库的研究与建设[D];苏州大学;2006年
8 沈威;基于渡越矩阵与语境计算模型的复句关系词的自动标注[D];华中师范大学;2007年
9 罗丽俊;中文信息处理中若干技术的研究与实现[D];辽宁科技大学;2008年
10 毋琳;特定领域问答系统中通用语义理解框架的设计与实现[D];河南大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026