收藏本站
《中文信息学报》 1986年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

汉语处理的基础工程——现代汉语词频统计

刘源  梁南元  
【摘要】:汉语词频统计是汉语言处理的一项基础工程。汉语词汇量巨大,人工统计精度上难以保证。由于存在编码输入、分词等方面的困难,直到八十年代初期,我国才开始利用计算机进行汉语分词、统计的研究。“现代汉语词频统计”是由北京航空学院等11个单位研制成功的、规模巨大的汉语基础工程。它选取汉语材料约三亿字,从中抽样输入了二千余万汉字,并对之进行了计算机自动分词和频度统计。它首次实现了一个汉语自动分词系统—CDWS,建立了一个有十三余万词条的计算机词典,研制了一个有五十二个属性的汉字信息库。

手机知网App
【引证文献】
中国期刊全文数据库 前10条
1 梁南元;汉语自动分词知识[J];北京航空航天大学学报;1988年04期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 吴岩,李秀坤,王开铸;文章意义段划分的数学模型[J];哈尔滨工业大学学报;1998年06期
4 郭友仁;;汉语文献自动标引专家系统中的知识表达[J];情报科学;1987年04期
5 揭春雨,刘源,梁南元;汉语自动分词实用系统CASS的设计和实现[J];中文信息学报;1991年04期
6 王晓龙,王开铸,白小华;自然语言理解中的音字流自动分词[J];中文信息学报;1991年03期
7 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
8 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
9 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
10 陈展荣,曾毅平;Web汉语料的智能抽取与词汇切分[J];计算机工程与设计;2005年06期
中国重要会议论文全文数据库 前1条
1 刘丽艳;盛立东;;一个特定人手写汉字识别系统的实现[A];第八届全国汉字识别学术会议论文集[C];2002年
中国博士学位论文全文数据库 前2条
1 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
2 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
中国硕士学位论文全文数据库 前6条
1 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
2 鲍胜利;基于多算法集成和神经网络的汉字识别系统的研究[D];四川大学;2002年
3 段立;语境计算在词语歧义消解中的应用[D];华东师范大学;2006年
4 赖擎;问答式系统汉语语言理解技术的研究[D];重庆大学;2005年
5 赵艳芳;面向Internet的个性化信息服务的研究[D];云南师范大学;2005年
6 程冲;信息检索用汉语分词与未登录词识别技术研究[D];南京农业大学;2007年
【同被引文献】
中国期刊全文数据库 前10条
1 宋爱波,胡孔法,董逸生;Web日志挖掘[J];东南大学学报(自然科学版);2002年01期
2 李晓丽,杜振龙,李明,余冬梅;基于Bayes概率的用户兴趣发现[J];计算机工程与科学;2003年05期
3 陈莉,焦李成;Internet/Web数据挖掘研究现状及最新进展[J];西安电子科技大学学报;2001年01期
4 程节华;自动分词中的歧义字段分析及处理[J];安徽农业技术师范学院学报;2000年03期
5 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
6 於坚秋;数字图书馆概念及浙江省发展对策之探析[J];国家图书馆学刊;2001年03期
7 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
8 李海鹰;图书馆知识管理的基本理念与策略[J];图书与情报;2004年04期
9 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报(自然科学版);2003年06期
10 孙铁利,杨凤芹;根据用户隐式反馈建立和更新用户兴趣模型[J];东北师大学报(自然科学版);2003年03期
中国博士学位论文全文数据库 前7条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 张晓刚;面向软件过程改进的知识管理技术研究[D];中国科学院研究生院(软件研究所);2004年
3 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
4 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
5 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
6 李丹;科学研究活动中的知识管理研究[D];武汉大学;2005年
7 江傲霜;六朝笔记小说词汇研究[D];山东大学;2007年
中国硕士学位论文全文数据库 前8条
1 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
2 薛松;汉英平行语料库中名词短语对齐算法的研究[D];中国科学院研究生院(软件研究所);2003年
3 吴凤娟;汉英歧义现象对比研究[D];华中科技大学;2004年
4 许超;汉英双语网页资源中相同事件文本对的提取[D];南京师范大学;2005年
5 吴敏;《老学庵笔记》词汇研究[D];四川大学;2006年
6 张俊;基于内容的汉语文献信息检索系统的设计与实现[D];南京农业大学;2006年
7 刘小宇;基于语义理解的中文常问问答系统的研究[D];大连理工大学;2006年
8 侯水霞;《南村辍耕录》词汇及语料价值研究[D];暨南大学;2007年
【二级引证文献】
中国期刊全文数据库 前10条
1 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
2 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
5 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
6 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报;2003年02期
7 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期
8 温艳鸿;;基于lucene的文件搜索引擎的设计与扩展[J];福建电脑;2007年08期
9 徐志明,王晓龙,姜守旭;一种语句级汉字输入技术的研究[J];高技术通讯;2000年01期
10 刘晓英;汉语自动分词研究的发展趋势[J];高校图书馆工作;2005年04期
中国博士学位论文全文数据库 前10条
1 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
2 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
3 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
4 王夏黎;智能交通视频监视技术研究与应用[D];西北大学;2004年
5 赵章界;短语结构制导的范畴表达式演算[D];中国科学院研究生院(计算技术研究所);2006年
6 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
7 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
8 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
9 史艳岚;基于中国主流报纸动态流通语料库的对外汉语报刊新闻主题词群及相关研究[D];北京语言大学;2006年
10 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
中国硕士学位论文全文数据库 前10条
1 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
2 何尧;基于半监督学习的中文文档分类技术研究[D];中南大学;2005年
3 孟祥超;网络资源搜集系统的设计与实现[D];吉林大学;2005年
4 程越;基于统计的中文姓名识别的研究与实现[D];吉林大学;2005年
5 杨超;基于最大匹配的书面汉语自动分词研究[D];湖南大学;2004年
6 付曙光;合作伙伴的Web挖掘系统研究[D];辽宁工程技术大学;2005年
7 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
8 郑毅敏;电力安装工程造价管理系统的研究[D];重庆大学;2003年
9 雷爱平;基于网格支持单点登录的企业级分布式权限管理框架(PMI)系统[D];浙江大学;2005年
10 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
【相似文献】
中国期刊全文数据库 前10条
1 刘哲;;数据清洗技术在网络教学评价体系中的应用[J];网络与信息;2011年08期
2 王俊生;施运梅;张仰森;;基于Hadoop的分布式搜索引擎关键技术[J];北京信息科技大学学报(自然科学版);2011年04期
3 贾丙静;吴长勤;葛华;;Web文本聚类的研究与实现[J];长春师范学院学报;2011年06期
4 蒋艳荣;刘习文;陈耿涛;;基于Viterbi改进算法的高棉语分词研究[J];计算机工程;2011年15期
5 齐全;董晶;;基于描述能力的视频标题分类[J];华南理工大学学报(自然科学版);2011年07期
6 吴戈;;基于混沌加密和连词替换的文本水印算法[J];长春大学学报;2011年06期
7 龙志祎;程葳;;基于词聚类的热点话题检测算法[J];计算机工程与设计;2011年06期
8 姜文志;顾佼佼;丛林虎;;CRF与规则相结合的军事命名实体识别研究[J];指挥控制与仿真;2011年04期
9 艾丹祥;左晖;杨君;;网络信息检索中相关反馈技术的Java实现[J];电脑知识与技术;2011年16期
10 刘里;刘小明;;基于分隔符和上下文术语的领域现象术语抽取[J];华南理工大学学报(自然科学版);2011年07期
中国重要会议论文全文数据库 前10条
1 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李怡平;吴飞;;多语言环境下的分布式互联网分词平台[A];第十六届全国数据库学术会议论文集[C];1999年
3 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 徐冰;姚建民;杨沐昀;赵铁军;;汉语分词在机器翻译评价中的影响[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 王厚峰;;机器翻译中汉语词节点的识别[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 卢俊之;;基于机器学习的分词不一致自动识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
9 陈丕海;冯建华;邢春晓;郑晓慧;;SiteSearch的关键技术分析及汉化设计[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
10 亢世勇;刘海润;;基于数据库的现代汉语词类优势语法功能统计研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
2 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
3 ;大恒FTR全文检索软硬件解决方案[N];计算机世界;2001年
4 朱艳;术语解释[N];中国电脑教育报;2000年
5 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
6 郑依华;搜索引擎也开源[N];计算机世界;2006年
7 清华大学计算机系人机交互与媒体集成研究所 陶建华 蔡莲红;语音合成的应用系统设计[N];计算机世界;2001年
8 杨宝昌;让MySQL支持中文全文检索[N];计算机世界;2006年
9 ;特殊符号在搜索引擎中的妙用[N];电脑报;2004年
10 晓梦;“面对面”的智能电子词典[N];计算机世界;2004年
中国博士学位论文全文数据库 前10条
1 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
2 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
3 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
4 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
5 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
6 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
7 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
8 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
9 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
10 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年
中国硕士学位论文全文数据库 前10条
1 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
2 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
3 赵春红;外包数据库模型中文本数据完整性检测方案的研究[D];燕山大学;2010年
4 卢育红;半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)[D];北京交通大学;2011年
5 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
6 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
7 都菁;基于论坛语料的未登录词自动识别新方法[D];西南大学;2010年
8 陈焱劼;搜索引擎系统的设计与实现[D];北京交通大学;2011年
9 林渌;基于新闻主题模型的热点工作挖掘系统[D];浙江大学;2011年
10 张俊英;基于谱聚类的图书目录重构[D];浙江大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026