收藏本站
《重庆大学学报》 2010年10期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

面向文本知识管理的自适应中文分词算法

冯永  贺迅  唐黎  陈显勇  陈贞  
【摘要】:针对传统字典匹配分词法在识别新词和特殊词处理方面的不足,结合2元统计模型提出了面向文本知识管理的自适应中文分词算法——SACWSA。SACWSA在预处理阶段结合应用有限状态机理论、基于连词的分隔方法和分治策略对输入文本进行子句划分,从而有效降低了分词算法的复杂度;在分词阶段应用2元统计模型,结合局部概率和全局概率,完成子句的切分,从而有效地提升了新词的识别率并消除了歧义;在后处理阶段,通过建立词性搭配规则来进一步消除2元分词结果的歧义。SACWSA主要的特色在于利用"分而治之"的思想来处理长句和长词,用局部概率与全局概率相结合来识别生词和消歧。通过在不同领域语料库的实验表明,SACWSA能准确、高效地自动适应不同行业领域的文本知识管理要求。

手机知网App
【参考文献】
中国期刊全文数据库 前5条
1 熊英;朱杰;;基于支持向量机的改进中文交集型歧义消解特征研究(英文)[J];Journal of Southeast University;2007年02期
2 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
3 冯冲;陈肇雄;黄河燕;关真珍;;基于Multigram语言模型的主动学习中文分词[J];中文信息学报;2006年01期
4 曹勇刚;曹羽中;金茂忠;刘超;;面向信息检索的自适应中文分词系统[J];软件学报;2006年03期
5 宋彦;蔡东风;张桂平;赵海;;一种基于字词联合解码的中文分词方法[J];软件学报;2009年09期
【共引文献】
中国期刊全文数据库 前10条
1 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
2 耿增民;刘万春;朱玉文;;受限领域的自动文摘方法研究[J];北京理工大学学报;2006年08期
3 夏亚梅;苏森;;面向本体实例生成的有限汉语语法学习系统[J];北京邮电大学学报;2010年05期
4 朱姝;张政;;基于多层次句子相似度与向量空间模型的词义消歧[J];北京工商大学学报(自然科学版);2009年02期
5 李六杏;区凤霞;;基于最优属性约简的中文邮件过滤系统[J];电脑知识与技术(学术交流);2007年05期
6 魏晓宁;;基于隐马尔科夫模型的中文分词研究[J];电脑知识与技术(学术交流);2007年21期
7 张磊;张代远;;中文分词算法解析[J];电脑知识与技术;2009年01期
8 刘韬;;设立切分标志法在中文地址自动分词中的改进与应用[J];电脑知识与技术;2009年11期
9 陈文君;於文雪;;汉英跨语言检索系统中关键词提取方法的研究[J];电脑知识与技术;2009年28期
10 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
3 朱春江;陆宇旻;李陶深;杜衡斌;唐晟;;分布式网络监控系统中网页安全挖掘的研究[A];广西计算机学会2008年年会论文集[C];2008年
4 邓攀;刘功申;;基于标引信息的网络新概念发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
6 李斌;;中文单字国名简称的自动识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 林小俊;田浩;王馨浩;杜蕴璇;许敏;吴玺宏;迟惠生;;语言模型训练语料处理方法及解码词典的设计[A];第八届全国人机语音通讯学术会议论文集[C];2005年
8 李斌;陈小荷;;面向中文陌生文本的人机交互式分词方法[A];第三届学生计算语言学研讨会论文集[C];2006年
9 何中军;刘群;林守勋;;统计机器翻译中短语切分的新方法[A];第三届学生计算语言学研讨会论文集[C];2006年
10 陈晓苏;邹园斌;张文珂;;全切分图与路径表达式在分词算法中的应用[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 刘运通;产品设计过程知识配送服务关键技术研究[D];浙江大学;2011年
2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
3 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
4 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
5 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
6 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
7 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
8 赵小兵;基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D];北京语言大学;2007年
9 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
2 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
3 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
4 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
5 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
6 常富国;高技术虚拟企业谈判支持问题处理系统研究[D];哈尔滨理工大学;2010年
7 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
8 张庐颖;基于粗糙集的K-means研究[D];北京交通大学;2011年
9 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
10 韩露;领域知识对领域问答系统答案抽取影响研究[D];昆明理工大学;2008年
【二级参考文献】
中国期刊全文数据库 前6条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
3 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
4 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
5 赵海;揭春雨;;基于有效子串标注的中文分词[J];中文信息学报;2007年05期
6 周强;规则和统计相结合的汉语词类标注方法[J];中文信息学报;1995年03期
【相似文献】
中国期刊全文数据库 前10条
1 莫默;知识管理不是梦[J];中国计算机用户;2001年29期
2 刘多兰;知识管理与情报学创新[J];科技情报开发与经济;2004年10期
3 邢福荣;图书情报视野中的知识管理研究综述[J];高校图书馆工作;2004年06期
4 何雨生;;不同侧面讨论的同一个问题[J];中国计算机用户;2008年15期
5 赵广琴;;基于知识管理下企业档案的开发利用[J];广东档案;2010年04期
6 ;X-Set加速知识管理[J];每周电脑报;1998年35期
7 梁瑞心;现代企业的知识管理[J];科技进步与对策;2000年04期
8 段尧清;论知识管理的职能及特征[J];科技进步与对策;2000年09期
9 朱祖平;刍议知识管理及其体系框架[J];科研管理;2000年01期
10 马海群;论知识经济、知识管理与知识产权[J];图书情报知识;2000年02期
中国重要会议论文全文数据库 前10条
1 邹方;;学习型社会与图书馆知识管理[A];向数字化转型的图书馆工作[C];2004年
2 阳煜华;;基于知识管理的奥运会组织管理——以“奥运会知识转让”计划为例[A];中华人民共和国第十一届运动会科学大会论文摘要汇编[C];2009年
3 李培平;;知识管理的内涵和模式[A];发展的信息技术对管理的挑战——99’管理科学学术会议专辑(上)[C];1999年
4 张明国;刘晓荣;;我国化工企业技术创新与知识管理研究[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
5 黄菲菲;梁英艳;蒋侃;;基于KM的高校学生学习行为分析[A];广西计算机学会——2004年学术年会论文集[C];2004年
6 王众托;;知识管理系统初探[A];系统工程与可持续发展战略——中国系统工程学会第十届年会论文集[C];1998年
7 张喆;张良;;基于ERP的知识管理决策支持系统结构设计研究[A];管理科学与系统科学研究新进展——第6届全国青年管理科学与系统科学学术会议暨中国科协第4届青年学术年会卫星会议论文集[C];2001年
8 彭宇竹;石海明;;引进知识管理 优化人力资源 构筑医院核心竞争力[A];2004年中华医院管理学会学术年会论文集[C];2004年
9 杨密霞;;论高校图书馆知识管理的创新[A];向数字化转型的图书馆工作[C];2004年
10 姜莹;;产业集群内企业实施知识管理的价值分析[A];创新沈阳文集(C)[C];2009年
中国重要报纸全文数据库 前10条
1 陈友梅;OA走向知识管理[N];中国计算机报;2003年
2 王码;知识管理持续升温[N];科技日报;2003年
3 ;IBM Lotus :以协作为核心的知识管理[N];网络世界;2002年
4 本报记者 潘永花;知识管理“随需应变”[N];网络世界;2003年
5 阜阳师范学院副教授 李永贞;论知识管理在企业管理中的地位[N];国际商报;2010年
6 解永;知识管理略谈[N];中国贸易报;2004年
7 李云杰;HP搭乘“知识管理”快车[N];中国计算机报;2002年
8 ;知识管理:从“职能”到“流程”[N];中国计算机报;2004年
9 ;知识管理从幕后到台前[N];上海金融报;2003年
10 孙树杰;拯救知识管理[N];中国经营报;2004年
中国博士学位论文全文数据库 前10条
1 贾文玉;企业知识与利润的转换研究[D];同济大学;2006年
2 唐建生;组织内部知识共享的若干问题研究[D];天津大学;2004年
3 张长涛;知识管理与产品开发人才管理耦合研究[D];哈尔滨工程大学;2003年
4 李作学;个体隐性知识的结构分析与管理研究[D];大连理工大学;2007年
5 刘蕾;基于企业核心业务能力的知识管理策略研究[D];昆明理工大学;2003年
6 华斌;知识管理在科技项目立项评价中的应用研究[D];天津财经大学;2008年
7 阎立;技术惯域对我国企业自主创新能力影响机制研究[D];南京理工大学;2008年
8 刘武成;工程设计项目知识管理影响因子实证分析与应用研究[D];中南大学;2009年
9 阎荣舟;企业组织结构变迁中的知识演化研究[D];中共中央党校;2007年
10 何永刚;信息系统开发过程中知识转移研究[D];复旦大学;2007年
中国硕士学位论文全文数据库 前10条
1 周笑磊;IT企业中知识管理与技术创新作用机理研究[D];浙江大学;2003年
2 王新强;知识管理的五项修炼[D];天津大学;2004年
3 张雄林;基于知识管理的客户关系管理研究[D];天津大学;2004年
4 席运江;基于系统观点的企业营销知识管理系统分析与设计[D];大连理工大学;2002年
5 董新平;基于信息化的企业知识管理研究[D];华中师范大学;2004年
6 马丽丽;企业知识管理实施框架研究[D];天津大学;2003年
7 周业强;我国企业知识管理的应用模式与策略研究[D];中国海洋大学;2004年
8 杨群;软件研发中知识管理应用研究[D];武汉理工大学;2005年
9 刘秀丽;知识管理在建设工程合同管理中的应用研究[D];西安建筑科技大学;2010年
10 邓明春;管理咨询公司的知识管理[D];广西大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026