收藏本站
《计算机应用》 2005年09期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种基于提取上下文信息的分词算法

曾华琳  李堂秋  史晓东  
【摘要】:汉语分词在汉语文本处理过程中是一个特殊而重要的组成部分。传统的基于词典的分词算法存在很大的缺陷,无法对未登录词进行很好的处理。基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理不尽如人意。文章提出一种基于上下文信息提取的概率分词算法,能够将切分文本的上下文信息加入到分词概率模型中,以指导文本的切分。这种切分算法结合经典n元模型以及EM算法,在封闭和开放测试环境中分别取得了比较好的效果。

【引证文献】
中国期刊全文数据库 前8条
1 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
2 冯素琴;陈惠明;;利用上下文信息解决汉语组合型歧义[J];电脑开发与应用;2007年01期
3 刘哲;夏秀峰;周福才;;基于中文地址类信息的分词处理[J];沈阳航空工业学院学报;2008年04期
4 何国斌;赵晶璐;;汉语文本自动分词算法的研究[J];计算机工程与应用;2010年03期
5 何国斌;赵晶璐;;基于最大匹配的中文分词概率算法研究[J];计算机工程;2010年05期
6 张严虎;潘璐璐;彭子平;张靖波;于中华;;基于规则挖掘和Nave Bayes方法的组合型歧义字段切分[J];计算机应用;2008年07期
7 冯素琴;陈惠明;;一种自组织的汉语组合型歧义消歧方法[J];计算机工程与设计;2007年03期
8 冯素琴;陈惠明;;一种基于搭配信息的汉语组合型消歧方法[J];山西大学学报(自然科学版);2008年02期
中国硕士学位论文全文数据库 前10条
1 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
2 邹丹;基于Web的中文文本分类的研究与实现[D];中国地质大学(北京);2006年
3 刘哲;ETL过程中的数据清洗技术研究与应用[D];沈阳航空工业学院;2007年
4 王美方;信息过滤系统中特征选择算法的研究[D];山东师范大学;2008年
5 黄华勇;奥运竞技体育项目技战术分析知识库的研究与实现[D];南京理工大学;2008年
6 赵晶璐;Web中文信息获取的算法研究[D];西南大学;2009年
7 罗万;基于生成性词库分词技术的汉语拼音自动转换研究[D];湖南师范大学;2009年
8 郭英华;面向信息处理的介词“到”及其结构的自动识别研究[D];上海师范大学;2009年
9 王永辉;基于全文搜索DotLuceneAPI构建企业信息搜索框架[D];天津大学;2009年
10 邢胜南;基于MDA的数据分析过程研究[D];山东大学;2010年
【参考文献】
中国期刊全文数据库 前3条
1 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
2 李家福,张亚非;基于EM算法的汉语自动分词方法[J];情报学报;2002年03期
3 黄昌宁;统计语言模型能做什么?[J];语言文字应用;2002年01期
【共引文献】
中国期刊全文数据库 前10条
1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
2 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
3 陈晓明;梁雄友;;一种实用的PCFG多阶段全局寻优句法分析算法[J];长春理工大学学报(自然科学版);2010年02期
4 马照亭;李志刚;孙伟;印洁;;一种基于地址分词的自动地理编码算法[J];测绘通报;2011年02期
5 王海静;;俗语语料库与语典编纂相关问题的思考[J];辞书研究;2011年04期
6 马创新;李斌;;基于VC++的人工分词及词性标注辅助程序设计与实现[J];电脑编程技巧与维护;2011年01期
7 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
8 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
9 钱揖丽,郑家恒;中文文本词性自动校对系统的实现[J];电脑开发与应用;2004年01期
10 陈宏彦;陈俊杰;;规则与统计相结合的分词算法[J];电脑开发与应用;2006年08期
中国重要会议论文全文数据库 前10条
1 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
3 戴祖旭;洪帆;;基于词性标记文法的文本信息隐藏算法[A];第四届中国软件工程大会论文集[C];2007年
4 张霄军;;“长安”的同名地名自动识别与指代消解[A];陕西省社会科学界第二届(2008)学术年会——青年博士论坛“陕西新起点:创新·发展·民生”专题获奖论文选编[C];2008年
5 陈毅东;李堂秋;郑旭玲;;融合理性主义方法和经验主义方法的思路初探——汉英机器翻译系统英文生成选词模型的设计[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
6 王洁;荀恩东;宋柔;;兼类词排歧的一种方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 王洁;荀恩东;罗智勇;宋柔;;现代汉语多音词自动标音研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 程月;季娜;洪鹿平;;基于语料统计的以“不”开头双字分词不一致研究[A];第三届学生计算语言学研讨会论文集[C];2006年
9 杜超华;沈威;姚双云;;基于复句语料库的分词系统的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
10 朱丽丽;郑家恒;;一种基于实例学习的人名识别方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
2 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
3 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
4 何婷婷;语料库研究[D];华中师范大学;2003年
5 张蕾;概念结构及其应用[D];西北工业大学;2001年
6 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
7 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
8 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
9 彭强;复杂系统远程智能故障诊断技术研究[D];南京理工大学;2004年
10 钱俊;单幅雷达影像测图原理研究[D];武汉大学;2004年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
3 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
4 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
5 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
6 王有权;基于Web的智能答疑技术研究与实现[D];南京财经大学;2010年
7 苏俊峰;基于HMM的藏语语料库词性自动标注研究[D];西北民族大学;2010年
8 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
9 周月红;基于Lucene的站内搜索引擎的设计与开发[D];华东理工大学;2011年
10 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 张彦群;“到”的词性及相关句法结构分析[J];安阳师范学院学报;2005年03期
2 罗万;彭泽润;;GH高浓缩汉语拼写方案及其原理[J];北华大学学报(社会科学版);2006年06期
3 暴海龙,李金林;专利检索中的IPC和主题词识别方法研究[J];北京理工大学学报(社会科学版);2003年05期
4 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
5 马德全,张兴旺;动词与介词的联系和区别[J];本溪冶金高等专科学校学报;2001年04期
6 汤海蓉,李锡辉,朱利群;从C#中调用COM对象的实现[J];常德师范学院学报(自然科学版);2003年01期
7 高桥弥守彦;试论“到”的用法[J];昌吉师专学报;1999年04期
8 胡必锦;;标准汉字的自动识别[J];重庆交通学院学报;2006年04期
9 杨月蓉;论“到”及与“到”有关的结构[J];重庆工商大学学报(社会科学版);2003年01期
10 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
中国重要会议论文全文数据库 前1条
1 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国硕士学位论文全文数据库 前7条
1 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
2 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
3 刘七;基于Web文本内容的信息过滤系统的研究与设计[D];南京理工大学;2004年
4 周宏广;异构数据源集成中清洗策略的研究及应用[D];中南大学;2004年
5 周奕辛;数据清洗算法的研究与应用[D];青岛大学;2005年
6 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
7 田雪松;数据质量分析评估模型的设计与实现[D];吉林大学;2008年
【二级引证文献】
中国期刊全文数据库 前10条
1 周宏宇;张政;;中文分词技术综述[J];安阳师范学院学报;2010年02期
2 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
3 黄美璇;;基于主题发现的舆情分析系统的设计与实现[J];北京联合大学学报(自然科学版);2012年01期
4 田占霄;韩宪忠;王克俭;;一种改进的长词优先逆向最大匹配分词消歧策略[J];河北农业大学学报;2009年04期
5 綦科;谢冬青;;基于内容的短信分类系统的设计与实现[J];广州大学学报(自然科学版);2011年05期
6 王惠仙;龙华;;基于改进的正向最大匹配中文分词算法研究[J];贵州大学学报(自然科学版);2011年05期
7 尤慧丽;晏立;杨晓东;;中文分词中组合型切分歧义的消解研究[J];计算机工程与应用;2011年31期
8 李国和;刘光胜;秦波波;吴卫江;李洪奇;;综合最大匹配和歧义检测的中文分词粗分方法[J];计算机工程与应用;2012年14期
9 王杰;虞丽娟;张辉;黄华勇;;决策树算法在乒乓球比赛中的应用[J];计算机工程;2010年24期
10 蒋艳荣;刘习文;陈耿涛;;基于Viterbi改进算法的高棉语分词研究[J];计算机工程;2011年15期
中国博士学位论文全文数据库 前2条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 陈彬;垃圾邮件的特征选择及检测方法研究[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 许旭;韵律对并列结构歧义的消解影响[D];辽宁师范大学;2010年
2 韩璐;针对推荐系统中信息共享需求下隐私保护机制的研究与实现[D];华东师范大学;2011年
3 阮文娟;商务智能ETL过程优化及质量控制在航空预警中的应用研究[D];武汉理工大学;2010年
4 蒋祥杰;基于用户情境本体的个性化知识服务研究[D];武汉理工大学;2010年
5 张盛蕾;基于Java的浙江纺织服装学院校园网搜索引擎[D];电子科技大学;2010年
6 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
7 孙华昱;Lucene在医学影像资源检索平台中的应用[D];沈阳工业大学;2011年
8 石安磊;基于文本相似度评分的中医案例分析系统研究与实现[D];西北大学;2011年
9 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年
10 林捷;主题网络爬虫的研究和实现[D];武汉理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前6条
1 王轩,李巍,王晓龙,赵淑香;大标记集汉语字(词)Markov 语言模型的建立[J];哈尔滨工业大学学报;1997年05期
2 刘小虎,李生,赵铁军;词典的模糊查询和单词的快速录入[J];哈尔滨工业大学学报;1997年05期
3 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
4 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
5 王晓龙,王开铸,白小华;自然语言理解中的音字流自动分词[J];中文信息学报;1991年03期
6 黄昌宁;关于处理大规模真实文本的谈话[J];语言文字应用;1993年02期
【相似文献】
中国期刊全文数据库 前10条
1 曾华琳,李堂秋,史晓东;一种基于提取上下文信息的分词算法[J];计算机应用;2005年09期
2 迟呈英;于长远;战学刚;;基于条件随机场的中文分词方法[J];情报杂志;2008年05期
3 魏莎莎;熊海灵;;中文分词中的歧义识别处理策略[J];微计算机信息;2010年30期
4 张严虎;潘璐璐;彭子平;张靖波;于中华;;基于规则挖掘和Nave Bayes方法的组合型歧义字段切分[J];计算机应用;2008年07期
5 熊桂喜;李政;;基于规则和语料库的中文姓名识别研究[J];计算机与信息技术;2007年12期
6 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
7 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期
8 黄德根;焦世斗;周惠巍;;基于子词的双层CRFs中文分词[J];计算机研究与发展;2010年05期
9 孙殿哲;魏海平;陈岩;;Nutch中庖丁解牛中文分词的实现与评测[J];计算机与现代化;2010年06期
10 杨文涛;司应硕;张森;;GA-BP神经网络算法在中文分词分析中的应用研究[J];河南机电高等专科学校学报;2010年04期
中国重要会议论文全文数据库 前10条
1 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
3 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
5 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 任飞亮;石磊;姚天顺;;应用支持向量机进行中文分词[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 吴振东;史殿习;丁博;王怀民;;上下文态势感知框架的研究与实现[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年
9 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 清华大学计算机系 王克宏 刘英群;从“实验室”到“市场”还要多久[N];计算机世界;2003年
2 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
3 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
4 清华大学计算机系 陈恩义;无缝移动[N];计算机世界;2002年
5 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
6 孙琎;精准广告投播网络提供商 TidalWave获注资[N];第一财经日报;2008年
7 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年
8 记者 杨朝晖;医药搜索:不再“众里寻他千百度”[N];科技日报;2007年
9 李长生;应用安全 大有可为[N];中国计算机报;2005年
10 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
中国博士学位论文全文数据库 前10条
1 王玉祥;业务上下文的处理机制及其预测理论、关键技术研究[D];北京邮电大学;2010年
2 周晖;高分辨率遥感图像的层次化分析方法[D];国防科学技术大学;2010年
3 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
4 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
5 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
6 蔡柯柯;基于查询特征上下文的检索模型研究[D];浙江大学;2007年
7 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
8 崔永泉;协作计算环境下基于使用控制模型的访问控制研究[D];华中科技大学;2007年
9 程环环;基于贝叶斯网络的图像内容表述与分类[D];国防科学技术大学;2011年
10 乔秀全;模型驱动的业务生成方法及业务智能化支撑技术研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 佟德琴;基于字词联合解码的中文分词研究[D];大连理工大学;2011年
2 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
3 岳中原;词典与统计相结合的中文分词的研究[D];武汉理工大学;2010年
4 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
5 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
6 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
7 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
8 李培国;基于人工神经网的中文垃圾邮件过滤器的设计与实现[D];暨南大学;2007年
9 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
10 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026