收藏本站
《中文信息学报》 1995年04期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

汉语语料的自动分类

吴军  王作英  禹锋  王侠  
【摘要】:语料库语言学的发展要求语料库的规模越来越大。随着电子出版业的迅速发展,获取大量机读文本建立大规模语料库已成为可能。但是收集来的粗语料是杂乱无章的,在作加工整理前必须分类。若用手工分类则工作量很大。本文介绍了一种语料自动分类办法。它采用文中提出的语料相关系数的概念,并利用不同类语料相关系数不同的特点进行分类,取得了93%的大类分类正确率。
【作者单位】清华大学电子工程系
【分类号】:H085.2

【引证文献】
中国期刊全文数据库 前10条
1 郭淼霞;;中文网页分类研究综述[J];赤峰学院学报(自然科学版);2011年12期
2 周水庚,关佶红,胡运发;无需词典支持和切词处理的中文文档分类[J];高技术通讯;2001年03期
3 陈勤,张国煊,王小华;文本自动模糊分类方法的研究[J];杭州电子工业学院学报;1999年04期
4 王小华,张国煊,陆蓓;文本分类系统的评价因素探讨[J];杭州电子工业学院学报;2002年03期
5 陈勤,张国煊,王小华,陆蓓,赵葆华;基于模糊模式识别的文本自动分类法研究[J];浙江大学学报(理学版);2000年03期
6 史九林,成颖;论语料库技术在自动分类研究中的应用[J];江苏图书馆学报;2000年04期
7 张宪海,吴玲达,谢毓香,老松杨;基于分类的个性化视频故事的自动生成与表现技术研究[J];计算机应用研究;2000年07期
8 陈勤,张国煊,王小华;基于模糊综合评判的文本自动分类算法[J];计算机应用与软件;2001年09期
9 李梅;廖开际;;一种面向业务流程的企业知识分类方法[J];计算机应用与软件;2011年06期
10 张殿勇;互联网内容识别和中文文本信息过滤——互联网监管系统设计实现[J];辽宁行政学院学报;2003年03期
中国重要会议论文全文数据库 前1条
1 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前7条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
3 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
4 吴翔;产品4D信息模型的基础技术研究[D];武汉理工大学;2005年
5 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
6 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
7 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
2 刘超;基于主题挖掘和覆盖的文本分类研究[D];安徽大学;2011年
3 刘小荣;基于聚类分析的图模型文本分类[D];内蒙古科技大学;2011年
4 许人升;基于意群的文本分类方法研究[D];北京化工大学;2011年
5 窦汝鹏;基于Web内容挖掘的医药类广告监控系统的实现[D];哈尔滨理工大学;2011年
6 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
7 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
8 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
9 湛燕;K-近邻、K-均值及其在文本分类中的应用[D];河北大学;2003年
10 李正林;中文文本数据分类研究[D];上海师范大学;2004年
【同被引文献】
中国期刊全文数据库 前10条
1 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
2 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
3 李明;刘鲁;王君;黄兆东;;基于模糊文本分类的多知识领域专家推荐方法[J];北京航空航天大学学报;2009年10期
4 易军凯;孟庆庆;;基于意群的计算机证据倾向性研究[J];北京化工大学学报(自然科学版);2010年01期
5 曹元大,徐漫江;面向对象知识表示在专家系统开发工具中的应用[J];北京理工大学学报;2000年06期
6 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
7 敖成龙,苏英,龚元明;基于相似度的复杂数据对象比较[J];北京理工大学学报;2003年05期
8 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
9 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
10 胡中华;赵敏;;基于人工蜂群算法的TSP仿真[J];北京理工大学学报;2009年11期
中国重要会议论文全文数据库 前1条
1 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
2 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
3 张燕平;基于商空间的构造性数据挖掘方法及应用[D];安徽大学;2003年
4 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
5 王真星;基于本体的计算机支持协同学习关键技术研究[D];复旦大学;2003年
6 胡鹤;本体方法及其时空推理应用研究[D];吉林大学;2004年
7 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
8 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
9 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
10 安金龙;支持向量机若干问题的研究[D];天津大学;2004年
中国硕士学位论文全文数据库 前10条
1 张宁;基于语义的中文文本预处理研究[D];西安电子科技大学;2011年
2 崔争艳;中文短文本分类的相关技术研究[D];河南大学;2011年
3 谢中;基于Web数据挖掘商务网站推荐系统的研究[D];西南师范大学;2002年
4 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
5 黄小琴;多Agent电子商务推荐系统研究[D];重庆大学;2003年
6 乔彩燕;机电产品数字化工业设计多目标评价理论与方法研究[D];西北工业大学;2004年
7 沈国海;基于语义网络的Web挖掘研究[D];合肥工业大学;2004年
8 蒋伟贞;基于类别的特征选择算法的文本分类系统[D];西南交通大学;2004年
9 黎星星;应用语义网构建Web服务推荐系统[D];重庆大学;2003年
10 薛惠忠;WEB信息的抽取与集成[D];东南大学;2004年
【二级引证文献】
中国期刊全文数据库 前10条
1 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
2 郭庆琳,樊孝忠;知识信息搜索和获取技术的研究[J];北京工业大学学报;2003年04期
3 李玉鑑;周兰珍;操卫平;;基于DF和CHI的联合特征提取方法及其应用[J];北京工业大学学报;2008年09期
4 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
5 李建伟;;基于协作学习模式的远程答疑系统设计[J];北京邮电大学学报(社会科学版);2008年01期
6 许磊;网络环境下《中图法》的改造[J];图书与情报;2003年03期
7 杨晓懿,刘嘉勇,陈淑敏;SVM在文本自动分类中的应用[J];成都信息工程学院学报;2005年02期
8 郭淼霞;;中文网页分类研究综述[J];赤峰学院学报(自然科学版);2011年12期
9 白国应;;俞君立的文献分类思想[J];重庆图情研究;2010年03期
10 王琦;;自动分类技术研究[J];河南财政税务高等专科学校学报;2008年04期
中国重要会议论文全文数据库 前10条
1 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
3 柏桂荣;章勇;;基于RSS的用户兴趣模型研究[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
4 ;Chinese Text Emotion Classification Based On Emotion Dictionary[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
5 张迪;郑德权;赵铁军;于浩;;Blog网页分类与识别技术研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
6 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 苏伟峰;李绍滋;李堂秋;尤文建;;可分义原向量空间中的跨语种文本过滤模型[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
9 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
10 豆风雷;蔡永泉;;互联网WEB信息内容过滤系统[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
2 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
3 赵世宜;基于新型模型原理的产品数字化设计研究与应用[D];湖南大学;2009年
4 郑立斌;联合式制造资源发现与集成方法的研究[D];江苏大学;2011年
5 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
6 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
7 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
8 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
9 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
10 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年
中国硕士学位论文全文数据库 前10条
1 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
2 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
3 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
4 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
5 周登;基于N-Gram模型的藏文文本分类技术研究[D];西北民族大学;2010年
6 张晓艳;面向农业信息服务平台的挖掘技术研究[D];湖南工业大学;2010年
7 艾伟;基于本体的Web信息文本挖掘与检索服务研究[D];北京信息控制研究所;2010年
8 梁晔平;中文文本自动分类相关算法的研究与实现[D];华南理工大学;2010年
9 王雅菲;文本分类中特征降维方法的研究[D];长春工业大学;2010年
10 李保秀;中文文本分类技术研究[D];南昌大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 丁信善;语料库语言学的发展及研究现状[J];当代语言学;1998年01期
2 吴军,王作英,禹锋,王侠;汉语语料的自动分类[J];中文信息学报;1995年04期
3 梅勇,王群生,徐秉铮;基于 FoxPro for Windows 的汉语语料库系统的构造[J];华南理工大学学报(自然科学版);1998年01期
4 张煤;英国国家语料库与英语口语研究[J];山东外语教学;1997年03期
5 崔刚,盛永梅;语料库中语料的标注[J];清华大学学报(哲学社会科学版);2000年01期
6 王庆新,刘欣;nearly和almost的语料研究[J];山东外语教学;2002年06期
7 胡明扬;现代汉语通用语料库的建库原则和设想[J];语言文字应用;1992年03期
8 罗锋;易满秀;;学术书评中情态动词的人际意义研究[J];新余高专学报;2010年05期
9 刘连元;现代汉语语料库研制[J];语言文字应用;1996年03期
10 王建新;介绍当代三个英语语料库[J];外语教学与研究;1996年03期
中国重要会议论文全文数据库 前10条
1 陈肖霞;王霞;;对朗读语料的音素标注与研究[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
2 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
3 蒋宏飞;曹海龙;杨沐昀;;基于大规模语料的中文词聚类研究与实现[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 刘亚斌;李爱军;;朗读语料与自然口语的差异分析[A];第六届全国人机语音通讯学术会议论文集[C];2001年
5 诺明花;张立强;刘汇丹;吴健;丁治明;;汉藏短语抽取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
6 朱凯;周杰;何婷婷;;因特网语料自动下载分析软件的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
7 李勇龙;王承发;徐近霈;;特定领域电话语音数据库的建立[A];第四届全国人机语音通讯学术会议论文集[C];1996年
8 刘昊;王健;林鸿飞;;一种模板与图核融合的蛋白质关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 孟凡东;徐金安;姜文斌;刘群;;异种语料融合方法:基于统计的中文词法分析应用[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 李正华;车万翔;刘挺;;基于XML的语言技术平台[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
2 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
3 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
4 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
5 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
6 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
7 佟文柱;语料更实 题材更广 语速更快[N];中国教师报;2002年
8 顾曰国;语料库语言学的发展[N];中国社会科学院院报;2003年
9 富士通中国研究开发中心总经理 石崎洋之;不尊重知识产权将丧失一切[N];光明日报;2002年
10 ;探索普通话自然连续语音之规律[N];光明日报;2001年
中国博士学位论文全文数据库 前10条
1 何婷婷;语料库研究[D];华中师范大学;2003年
2 王君泽;基于大规模问答语料的问题检索系统[D];华中科技大学;2010年
3 李思;WEB观点挖掘中关键问题的研究[D];北京邮电大学;2012年
4 于洋;基于语料库的环境话语中的联合研究[D];山东大学;2013年
5 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
6 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
7 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
8 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
9 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
10 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
中国硕士学位论文全文数据库 前10条
1 于立平;图像视觉特征及其描述词汇的对齐研究[D];北京邮电大学;2010年
2 宋鸿彦;基于主动学习的语料自动标注方法研究[D];上海交通大学;2010年
3 刘娟;韩国政治类语料特点研究[D];中国人民解放军外国语学院;2005年
4 刘东生;面向专利文献的中文分词技术的研究[D];沈阳航空工业学院;2010年
5 毋菲;数值信息的抽取方法研究[D];山西大学;2010年
6 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
7 李桂东;现代汉语动宾式动词的认知研究[D];上海外国语大学;2009年
8 樊谊军;现代汉语“能”与“会”的用法对比及其偏误分析[D];上海师范大学;2012年
9 王晓斌;阜宁方言调查研究[D];南京师范大学;2004年
10 温艳霞;中文时间规范化方法研究[D];山西大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026