收藏本站
《电脑开发与应用》 2006年08期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

规则与统计相结合的分词算法

陈宏彦  陈俊杰  
【摘要】:纵观信息爆炸时代的特征,信息量虽然急剧增大,但信息类型还是有限的。笔者提出,在分词之前先由用户通过选择特定领域词库来确定核心词汇,然后再有的放矢地进行单词切分的工作,分词效率从单纯使用统计算法的85.88%,提高到了91.46%。

【参考文献】
中国期刊全文数据库 前2条
1 李蕾,孙春葵,杨晓兰,钟义信;一种特定领域中文自动摘要系统[J];北京邮电大学学报;2000年01期
2 孙茂松,肖明,邹嘉彦;基于无指导学习策略的无词表条件下的汉语自动分词[J];计算机学报;2004年06期
【共引文献】
中国期刊全文数据库 前10条
1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
2 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
3 王智强;李蕾;王枞;;基于决策树的汉语代词共指消解[J];北京邮电大学学报;2006年04期
4 张素香;李蕾;谭咏梅;;特定领域下关系模板的研究[J];北京邮电大学学报;2006年05期
5 陈晓明;梁雄友;;一种实用的PCFG多阶段全局寻优句法分析算法[J];长春理工大学学报(自然科学版);2010年02期
6 马照亭;李志刚;孙伟;印洁;;一种基于地址分词的自动地理编码算法[J];测绘通报;2011年02期
7 王海静;;俗语语料库与语典编纂相关问题的思考[J];辞书研究;2011年04期
8 马创新;李斌;;基于VC++的人工分词及词性标注辅助程序设计与实现[J];电脑编程技巧与维护;2011年01期
9 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
10 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
中国重要会议论文全文数据库 前10条
1 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
3 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
4 刮俊杰;吴树国;伊胜伟;;基于词效应的中文术语提取方法[A];第三届中国智能计算大会论文集[C];2009年
5 戴祖旭;洪帆;;基于词性标记文法的文本信息隐藏算法[A];第四届中国软件工程大会论文集[C];2007年
6 张霄军;;“长安”的同名地名自动识别与指代消解[A];陕西省社会科学界第二届(2008)学术年会——青年博士论坛“陕西新起点:创新·发展·民生”专题获奖论文选编[C];2008年
7 程月;季娜;洪鹿平;;基于语料统计的以“不”开头双字分词不一致研究[A];第三届学生计算语言学研讨会论文集[C];2006年
8 杜超华;沈威;姚双云;;基于复句语料库的分词系统的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
9 朱丽丽;郑家恒;;一种基于实例学习的人名识别方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 吐尔根·依不拉音;阿里甫·库尔班;阿不都热依木;;基于词典的现代维吾尔语词性自动标注系统的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
2 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
3 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
4 张蕾;概念结构及其应用[D];西北工业大学;2001年
5 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
6 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
7 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
8 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
9 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
10 刘伟;现代汉语代词隐现的动态研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
3 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
4 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
5 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
6 王有权;基于Web的智能答疑技术研究与实现[D];南京财经大学;2010年
7 苏俊峰;基于HMM的藏语语料库词性自动标注研究[D];西北民族大学;2010年
8 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
9 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
10 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
【二级参考文献】
中国期刊全文数据库 前4条
1 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期
2 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
3 刘挺,吴岩,王开铸;串频统计和词形匹配相结合的汉语自动分词系统[J];中文信息学报;1998年01期
4 黄萱菁;吴立德;王文欣;叶丹瑾;;基于机器学习的无需人工编制词典的切词系统[J];模式识别与人工智能;1996年04期
【相似文献】
中国期刊全文数据库 前10条
1 任艳频,张佐,吴秋峰;一类规则调度系统的Petri网研究方法[J];计算机集成制造系统-CIMS;1999年02期
2 黄勇,胡健生,李晴帆;基于模糊Petri网模型的通信网络综合性能评价[J];电子工程师;2001年08期
3 韩峻峰;基于温湿度的模糊传感器舒适度合成法研究[J];传感器技术;2002年06期
4 尹之铎,陈华振;实施《归档文件整理规则》的思考[J];中国档案;2002年09期
5 饶莉;基于模拟法比较两种超市付款系统[J];四川工业学院学报;2002年S1期
6 易巍,郑启伦,彭宏;一种改进的规则知识获取方法[J];计算机工程与应用;2003年24期
7 陈骏,杨明福;基于Trie结构的并行多维数据包分类[J];计算机应用与软件;2003年11期
8 曹立军,秦俊奇,王兴贵,熊超;反后坐装置模糊故障预测系统研究[J];计算机测量与控制;2003年01期
9 邱鸿江;ISA SERVER在网络服务中的配置和应用[J];浙江万里学院学报;2004年02期
10 周晨,陈俊亮;SDL中ADT的CHILL实现与证明[J];通信学报;1992年03期
中国重要会议论文全文数据库 前10条
1 杨涛;刘庆生;李西京;付媛媛;;高阶统计量方法在提取震磁异常中的应用[A];中国地球物理学会第二十届年会论文集[C];2004年
2 赵方;;判别决策错误规则的变换[A];2000中国控制与决策学术年会论文集[C];2000年
3 林正炎;;学生氏U统计量的中心极限定理[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
4 王红滨;刘大昕;;元数据提取综述[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
5 赵鲁涛;徐美林;熊丽;;关于语言L(G[S])={a~nb~nc~n|n≥1}的文法深讨[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
6 张海燕;;国际女子体操评分规则的演变过程及阶段划分[A];2007广东省体育科学研究论文选[C];2007年
7 赖换初;;联言推理合成式规则探析[A];法律逻辑与法学教育——第十五届全国法律逻辑学术讨论会论文集[C];2007年
8 高烽;;掌握“八四九”规则 提高科技论文编写与编辑质量[A];2008年第四届中国科技期刊发展论坛论文集[C];2008年
9 黄虎威;;四部和声写作规则之我见[A];全国和声复调教学研讨会论文汇编[C];2010年
10 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 杜吟 庞彩伟;进一步提高计量工作的主动性有效性[N];中国质量报;2006年
2 杨蕾;电子智能水表再度引发质疑[N];民营经济报;2008年
3 仰静;新政“满月” 看京城东南西北二手房[N];北京现代商报;2006年
4 张丽萍;调查数据的处理与分析[N];中国社会科学院院报;2007年
5 杨蕾;电子智能水表让人皱眉头[N];中国质量报;2008年
6 重庆 雪飞;文本也能批量翻译[N];电脑报;2001年
7 黄智正;沪深300指数周内效应的非参数检验[N];期货日报;2007年
8 唐少明;基于APARCH—GED模型的期货头寸风险量化方法[N];期货日报;2008年
9 ;Neon:我小但我快[N];中国计算机报;2001年
10 杨小强;沪深300指数与上证指数关系的实证研究[N];期货日报;2008年
中国博士学位论文全文数据库 前10条
1 王峰;基于高阶统计量的水声信道盲均衡理论与算法[D];西北工业大学;2003年
2 向祥华;货币政策规则研究[D];中国人民大学;2004年
3 李安平;自由的条件[D];吉林大学;2008年
4 阎朝秀;司法认知:法理、规则、制度研究[D];四川大学;2006年
5 张兆曙;非常规行动与社会变迁[D];华中师范大学;2006年
6 李谨香;汉俄语名词性短语的结构与功能研究[D];黑龙江大学;2006年
7 母海东;区域水文地质图空间数据库建设规则研究[D];中国地质科学院;2008年
8 钟莉;价值·规则·实践[D];中山大学;2008年
9 李碧琼;瞬态信号的符号化分析及其工程应用[D];武汉理工大学;2006年
10 高晓康;粗糙集理论研究及其在工程和医学诊断中的应用[D];同济大学;2007年
中国硕士学位论文全文数据库 前10条
1 邓建锋;自由贸易区货物原产地规则初探[D];苏州大学;2006年
2 孙佳林;区域贸易协定研究[D];苏州大学;2008年
3 邵益勇;论约定违约金的调整[D];吉林大学;2008年
4 汤本顺;论波普的规律观[D];华南师范大学;2005年
5 蒋赛;论合同解释[D];湘潭大学;2005年
6 李景海;基于规则的水资源配置模型研究[D];中国水利水电科学研究院;2005年
7 丰超;基于Telnet的数据采集及基于文件的处理规则定制[D];吉林大学;2006年
8 吕春双;对FIG竞技健美操新规则的变化及其发展趋势的研究[D];东北师范大学;2006年
9 宋亮;论官僚制中的规则的意义[D];吉林大学;2006年
10 刘坤坤;《SPS协定》中风险评估规则研究[D];西南政法大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026