期刊库|学位论文库|会议论文库|免费注册|新手指南|知识超市|充值中心|知网招商|学习园地|帮助中心|English
全文文献:
《计算机应用研究》 2004年03期
加入收藏 获取最新

一种规则与统计相结合的汉语分词方法

赵伟  戴新宇  尹存燕  陈家骏  
【摘要】:汉语自动分词是中文信息处理领域的一项基础性课题,对现有的汉语分词方法作了简单的概述和分析,然后提出了一种新的分词方法,该方法基于一个标注好了的语料库,并且结合了规则和语料库统计两种分词方法。
【作者单位】南京大学计算机科学与技术系软件新技术国家重点实验室 南京大学计算机科学与技术系软件新技术国家重点实验室 南京大学计算机科学与技术系软件新技术国家重点实验室 南京大学计算机科学与技术系软件新技术国家重点实验室
【关键词】中文信息处理 分词 语料库 交集型歧义
【基金】:国家"863"基金资助项目(2001AA114102)
【分类号】:TP391.1
【DOI】:CNKI:SUN:JSYJ.0.2004-03-008
【正文快照】:
1 序言汉语自动分词是中文信息处理领域的一项基础性课题,也是智能化中文信息处理的关键所在,因为在中文信息处理中,凡是涉及句法、语义等的研究(如机器翻译、自然语言处理等)都要以词为基本单位。汉语不同于西文,在一个汉语句子中,词与词之间没有明显的分隔符(如空格)。汉
推荐 CAJ下载 PDF下载
不支持迅雷等加速下载工具,请取消加速工具后下载
CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式

【引证文献】
中国期刊全文数据库 前3条
1 肖红;许少华;李欣;;具有三级索引词库结构的中文分词方法研究[J];计算机应用研究;2006年08期
2 许春漫;;数字图书馆个性化信息检索模型研究[J];现代图书情报技术;2006年03期
3 谈文蓉,杨宪泽,刘莉;汉语自动排歧方法研究[J];西南民族大学学报(自然科学版);2005年06期
中国重要会议论文全文数据库 前1条
1 杜超华;沈威;姚双云;;基于复句语料库的分词系统的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前3条
1 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年
2 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
3 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 张治平;Web信息精确获取技术研究[D];国防科学技术大学;2004年
2 马哲;垃圾邮件过滤系统的研究与实现[D];浙江大学;2005年
3 关真珍;基于半督导机器学习的分词算法的设计与实现[D];华中科技大学;2004年
4 王红雨;网络教学汉语答疑系统关键技术的研究与应用[D];大连理工大学;2006年
5 张晓淼;基于神经网络的中文分词算法的研究[D];大连理工大学;2006年
6 闫蓉;基于语义的汉语词义消歧方法研究[D];西北大学;2006年
7 朱祥玉;基于向量空间模型的自适应文本过滤系统研究[D];山东师范大学;2006年
8 刘宽;现代汉语自动分词歧义分析及其消歧处理研究[D];兰州理工大学;2006年
9 陈鹏;基于语料库的维吾尔语词干提取和词性标注[D];新疆大学;2006年
10 张旭洁;基于语义网络的类自然语言的知识获取与转换的研究[D];云南师范大学;2006年
【参考文献】
中国期刊全文数据库 前5条
1 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
2 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期
3 沈达阳,孙茂松,黄昌宁;汉语分词系统中的信息集成和最佳路径搜索方法[J];中文信息学报;1997年02期
4 王伟,钟义信,孙建,杨力;一种基于EM非监督训练的自组织分词歧义解决方案[J];中文信息学报;2001年02期
5 李蓉,刘少辉,叶世伟,史忠植;基于SVM和k-NN结合的汉语交集型歧义切分方法[J];中文信息学报;2001年06期
【共引文献】
中国期刊全文数据库 前10条
1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
2 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报(自然科学版);1998年01期
3 冯志伟;汉字和汉语的计算机处理[J];当代语言学;2001年01期
4 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
5 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
6 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
7 王秀坤,李政,简幼良,刘剑;基于Hash方法的机器翻译词典的组织与构造[J];大连理工大学学报;1996年03期
8 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
9 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
10 亢临生,张永奎;利用分词属性解决歧义切分[J];电脑开发与应用;1994年04期
中国重要会议论文全文数据库 前10条
1 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
3 付国宏;王晓龙;龚永红;;基于词形的汉语文本切分方法[A];第五届全国人机语音通讯学术会议论文集[C];1998年
4 隋岩;张普;;基于“动态流通语料库”进行“有效字符串”提取的初步研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 隋福民;黄德根;;面向机器翻译的日语形态素解析方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 程月;季娜;洪鹿平;;基于语料统计的以“不”开头双字分词不一致研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 杜超华;沈威;姚双云;;基于复句语料库的分词系统的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
8 朱丽丽;郑家恒;;一种基于实例学习的人名识别方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 吐尔根·依不拉音;阿里甫·库尔班;阿不都热依木;;基于词典的现代维吾尔语词性自动标注系统的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 王思力;王斌;;基于双字耦合度的中文分词交叉歧义处理方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 张蕾;概念结构及其应用[D];西北工业大学;2001年
2 王兰成;基于XMARC信息描述的知识标引与概念检索研究[D];东华大学;2004年
3 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
4 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
5 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
6 彭强;复杂系统远程智能故障诊断技术研究[D];南京理工大学;2004年
7 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
8 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
9 刘伟;现代汉语代词隐现的动态研究[D];北京语言大学;2005年
10 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 王省;基地统计和规则的中文姓名识别系统的研制[D];大连理工大学;2000年
2 李朝阳;经济文献数据库计算机标引研究[D];南京农业大学;2000年
3 唐志文;搜索引擎中数据对象研究[D];湖南大学;2001年
4 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年
5 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
6 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
7 关宏超;基于统计的开放式汉语自动分词[D];大连理工大学;2002年
8 张丽静;规则与统计相结合的兼类词处理机制[D];大连理工大学;2002年
9 马东坡;Internet中文智能搜索引擎汉语自动分词系统设计[D];广西师范大学;2002年
10 傅赛香;基于Internet的智能信息检索技术研究[D];广西师范大学;2002年
【同被引文献】
中国期刊全文数据库 前10条
1 王娟琴;超维检索模式研究[J];大学图书馆学报;1999年01期
2 孙及园,林锦贤;对Web网页的查询及信息提取[J];福州大学学报(自然科学版);2000年03期
3 涂承胜,鲁明羽,陆玉昌;Web内容挖掘技术研究[J];计算机应用研究;2003年11期
4 陈亮,李雪梅,陈世福;个性化元搜索引擎AIP MSE的设计与实现[J];计算机应用研究;2003年12期
5 王娟琴;三种检索模型的比较分析研究——布尔、概率、向量空间模型[J];情报科学;1998年03期
6 吕津,赵明生;对因特网上自动信息提取的研究[J];数据通信;2000年01期
7 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期
8 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
9 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
10 谭琼,史忠植;分词中的歧义处理[J];计算机工程与应用;2002年11期
中国重要会议论文全文数据库 前1条
1 黄日昆;;网络引文搜索引擎CiteSeer评析[A];第三届广西青年学术年会论文集(社会科学篇)[C];2004年
中国博士学位论文全文数据库 前4条
1 何婷婷;语料库研究[D];华中师范大学;2003年
2 温继文;基于知识的鱼病诊断推理系统研究[D];中国农业大学;2003年
3 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
4 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年
中国硕士学位论文全文数据库 前10条
1 石霞军;邮件信息过滤算法研究与实现[D];湖南大学;2002年
2 周威成;信息过滤方法的研究与应用[D];华北电力大学(北京);2003年
3 孙岩国;基于Internet的中文文本过滤系统的研究与实践[D];兰州理工大学;2004年
4 刘七;基于Web文本内容的信息过滤系统的研究与设计[D];南京理工大学;2004年
5 迟学芝;基于自学习机制的信息过滤模型研究与实践[D];山东师范大学;2005年
6 石霞军;邮件信息过滤算法研究与实现[D];湖南大学;2002年
7 刘禹孜;汉语自动分词中排除歧义字段算法的研究[D];重庆大学;2005年
8 周蕾;中文未登录词识别的研究及在汉字输入法中的应用[D];苏州大学;2005年
9 廖先桃;中文命名实体识别方法研究[D];哈尔滨工业大学;2006年
10 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
【二级引证文献】
中国期刊全文数据库 前1条
1 程卫华;尤晋元;;基于内容过滤的反垃圾邮件系统的设计与实现[J];安徽大学学报(自然科学版);2007年03期
中国重要会议论文全文数据库 前1条
1 维尼拉·木沙江;吴俊森;吐尔根·依布拉音;;维吾尔文搜索引擎的倒排索引设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国硕士学位论文全文数据库 前9条
1 柯慧燕;Web文本分类研究及应用[D];武汉理工大学;2006年
2 黄国玉;基于神经网络的邮件分类识别研究[D];长安大学;2006年
3 张丽;基于Winnow算法的反垃圾邮件引擎的设计与实现[D];东南大学;2006年
4 程卫华;基于内容过滤的反垃圾邮件系统的设计与实现[D];上海交通大学;2007年
5 赵佳鹤;基于语义分析的网络信息采集算法研究与应用[D];大连理工大学;2006年
6 吕青普;科技文档的分类与查重[D];天津财经大学;2007年
7 热西旦;汉文—维吾尔文双语语料库构建的实验性研究[D];新疆大学;2007年
8 周登朋;搜索引擎搜索结果的聚类研究[D];上海交通大学;2007年
9 柴宝杰;中文自动分词若干技术的研究[D];燕山大学;2007年
【二级参考文献】
中国期刊全文数据库 前3条
1 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
2 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
3 孙茂松,左正平,邹嘉彦;高频最大交集型歧义切分字段在汉语自动分词中的作用[J];中文信息学报;1999年01期
【相似文献】
中国期刊全文数据库 前10条
1 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
2 李蓉,刘少辉,叶世伟,史忠植;基于SVM和k-NN结合的汉语交集型歧义切分方法[J];中文信息学报;2001年06期
3 谭琼,史忠植;分词中的歧义处理[J];计算机工程与应用;2002年11期
4 赵伟,戴新宇,尹存燕,陈家骏;一种规则与统计相结合的汉语分词方法[J];计算机应用研究;2004年03期
5 杨芳,杨振山;一种消除中文匹配中交集型歧义的方法[J];计算机辅助工程;2005年02期
6 张培颖;李村合;;一种改进的上下文相关的歧义字段切分算法[J];计算机系统应用;2006年05期
7 谈文蓉;杨宪泽;谈进;刘莉;;MIS智能接口中汉语分词系统的设计与应用[J];计算机科学;2006年07期
8 韦向峰;谭露;张全;;MFC编程技术在汉语切分歧义研究中的应用[J];微计算机应用;2007年05期
9 张辉;武亚红;黄润才;;基于规则和统计的汉语多输出切分系统[J];微电子学与计算机;2007年07期
10 邓凡;鱼滨;;基于语义计算的中文歧义字段消歧算法[J];计算机技术与发展;2008年06期
中国硕士学位论文全文数据库 前2条
1 刘禹孜;汉语自动分词中排除歧义字段算法的研究[D];重庆大学;2005年
2 刘宽;现代汉语自动分词歧义分析及其消歧处理研究[D];兰州理工大学;2006年
京ICP证040431号  互联网出版许可证新出网证(京)字008号
销售咨询:800-810-6613、010-62703327 售卡热线:010-62985026
服务热线:400-810-9888、010-62791813、010-62783978
招商热线:010-62982993 投诉电话:010-62791994 ©2008 中国知网(cnki)
关 闭
关 闭
关 闭