收藏本站
《电脑编程技巧与维护》 2011年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于VC++的人工分词及词性标注辅助程序设计与实现

马创新  李斌  
【摘要】:在语言研究中,经常要对语料进行分词和词性标注,使用VC++设计了一个人工分词及词性标注辅助程序,它能够根据预定的规则对标注后的语料进行检验,发现违反规则的情况给予提示,并且还设计了一个小键盘,减轻了标注者记忆词性标记的负担。使用该辅助程序对大量的古代汉语和现代汉语的语料进行标注。结果证明,该辅助程序既能够有效处理GB2312编码的简体汉字语料,也能够处理Unicode编码的繁体汉字语料,有效地提高了人工分词及词性标注的速度和正确率。
【分类号】:TP311.11

【共引文献】
中国期刊全文数据库 前10条
1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
2 陈晓明;梁雄友;;一种实用的PCFG多阶段全局寻优句法分析算法[J];长春理工大学学报(自然科学版);2010年02期
3 马照亭;李志刚;孙伟;印洁;;一种基于地址分词的自动地理编码算法[J];测绘通报;2011年02期
4 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
5 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
6 钱揖丽,郑家恒;中文文本词性自动校对系统的实现[J];电脑开发与应用;2004年01期
7 陈宏彦;陈俊杰;;规则与统计相结合的分词算法[J];电脑开发与应用;2006年08期
8 梁晓弘;杨文安;;分词技术在信息处理中的研究综述[J];电脑知识与技术(学术交流);2007年22期
9 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
10 刘韬;;设立切分标志法在中文地址自动分词中的改进与应用[J];电脑知识与技术;2009年11期
中国重要会议论文全文数据库 前10条
1 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
3 戴祖旭;洪帆;;基于词性标记文法的文本信息隐藏算法[A];第四届中国软件工程大会论文集[C];2007年
4 张霄军;;“长安”的同名地名自动识别与指代消解[A];陕西省社会科学界第二届(2008)学术年会——青年博士论坛“陕西新起点:创新·发展·民生”专题获奖论文选编[C];2008年
5 程月;季娜;洪鹿平;;基于语料统计的以“不”开头双字分词不一致研究[A];第三届学生计算语言学研讨会论文集[C];2006年
6 杜超华;沈威;姚双云;;基于复句语料库的分词系统的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 朱丽丽;郑家恒;;一种基于实例学习的人名识别方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 吐尔根·依不拉音;阿里甫·库尔班;阿不都热依木;;基于词典的现代维吾尔语词性自动标注系统的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 张霄军;董宇;陈小荷;;基于语料考察的“组合型歧义”与“切分变异”辨析[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 赫琳;;论“X 从小 Y”的词切分——“从小”语义指向计算机识别的再思考[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2009年
2 张蕾;概念结构及其应用[D];西北工业大学;2001年
3 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
4 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
5 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
6 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
7 刘伟;现代汉语代词隐现的动态研究[D];北京语言大学;2005年
8 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
9 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
10 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
3 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
4 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
5 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
6 王有权;基于Web的智能答疑技术研究与实现[D];南京财经大学;2010年
7 苏俊峰;基于HMM的藏语语料库词性自动标注研究[D];西北民族大学;2010年
8 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
9 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
10 付敏;一个改进的中文分词算法及其在Lucene中的应用[D];华中科技大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 张永奎;张彦;安增波;刘睿;;Web新闻语料分词和标注错误分析[J];计算机工程与应用;2007年15期
2 刘遥峰;王志良;王传经;;中文分词和词性标注模型[J];计算机工程;2010年04期
3 付国宏,王晓龙;面向真实文本的汉语词法自动分析系统[J];高技术通讯;1999年12期
4 杨晓恝;蒋维;郝文宁;;基于本体和句法分析的领域分词的实现[J];计算机工程;2008年23期
5 袁里驰,钟义信;一种新颖的词性标注模型[J];微电子学与计算机;2005年09期
6 李伯约;白若冰;刘井玉;姜妮;向健雄;;基于英汉平行语料库的汉语信息处理研究[J];外国语言文学研究;2004年04期
7 耿骞,毛瑞;汉语自然语言检索中的词法分析处理[J];情报科学;2004年04期
8 侯呈风;古丽拉·阿东别克;;改进的HMM应用于哈萨克语词性标注[J];计算机工程与应用;2010年36期
9 张跃,姚天顺;基于结合性自动识别中文姓名[J];小型微型计算机系统;1997年10期
10 朱靖波,张玫杰,姚天顺;一种基于NA假设的训练数据自动构造方法[J];东北大学学报(自然科学版);1999年04期
中国重要会议论文全文数据库 前10条
1 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 赵大明;;关于《现代汉语规范字典》的词性标注[A];中国辞书论集1999[C];1999年
5 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 邢富坤;宋柔;;自动词性标注中语法因素和词汇因素对英汉语的不同影响[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 帕里旦·吐尔逊;艾山·吾买尔;吐尔根·依布拉音;早克热·卡德尔;阿力木江·艾沙;;基于最大熵的维吾尔语词性标注模型[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
8 李怡平;吴飞;;多语言环境下的分布式互联网分词平台[A];第十六届全国数据库学术会议论文集[C];1999年
9 艳红;王斯日古楞;;蒙古文词语切分在自动词性标注中的应用[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
10 曲维光;;分词系统计量研究与改进方案[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 高岚;海量在线做搜索引擎“卖水人”[N];中国计算机报;2004年
2 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
3 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
4 孟传良;略谈汉外词典的修订[N];中国图书商报;2005年
5 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
6 ;大恒FTR全文检索软硬件解决方案[N];计算机世界;2001年
7 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
8 朱艳;术语解释[N];中国电脑教育报;2000年
9 ;语言信息处理呼唤知识应用[N];中国计算机报;2003年
10 郭延礼;都德《最后一课》的首译、伪译及其全译文本[N];中华读书报;2008年
中国博士学位论文全文数据库 前10条
1 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
2 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
3 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
4 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
5 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
6 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
7 马玉涛;在线客户评论的产品族设计与加工方法研究[D];华中科技大学;2012年
8 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
9 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
10 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
中国硕士学位论文全文数据库 前10条
1 刘东旭;在自然汉语中进行分词和词性标注[D];电子科技大学;2003年
2 钱揖丽;中文文本分词及词性标注自动校对方法研究[D];山西大学;2003年
3 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
4 盛鹏;基于全文过滤的垃圾邮件防范机制[D];昆明理工大学;2006年
5 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
6 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
7 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
8 赵春红;外包数据库模型中文本数据完整性检测方案的研究[D];燕山大学;2010年
9 卢育红;半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)[D];北京交通大学;2011年
10 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026