收藏本站
《中文信息学报》 2000年06期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

独立于语种的文本分类方法

黄萱菁  吴立德  石崎洋之  徐国伟  
【摘要】:文本分类是指在给定分类体系下 ,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型 ,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现 ,并获得了较好的分类性能。

【引证文献】
中国期刊全文数据库 前10条
1 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
2 陈治纲,何丕廉,孙越恒,郑小慎;基于向量空间模型的文本分类方法的研究与实现[J];计算机应用;2004年S1期
3 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期
4 周威成,马素霞;非法网页过滤的研究与实现[J];计算机应用;2003年10期
5 罗欣,夏德麟,晏蒲柳;基于词频差异的特征选取及改进的TF-IDF公式[J];计算机应用;2005年09期
6 申红;吕宝粮;内山将夫;井佐原均;;文本分类的特征提取方法比较与改进[J];计算机仿真;2006年03期
7 李雪蕾,张冬茉;一种基于向量空间模型的文本分类方法[J];计算机工程;2003年17期
8 都云琪,肖诗斌;基于支持向量机的中文文本自动分类研究[J];计算机工程;2002年11期
9 董小国;甘立国;;基于句子重要度的特征项权重计算方法[J];计算机与数字工程;2006年08期
10 陈文亮;朱靖波;朱慕华;姚天顺;;基于领域词典的文本特征表示[J];计算机研究与发展;2005年12期
中国重要会议论文全文数据库 前5条
1 陈文亮;朱慕华;朱靖波;姚天顺;;基于Bootstrapping的文本分类模型[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 张琼;陈群秀;;基于最大熵模型的语句自动分类研究[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
中国博士学位论文全文数据库 前8条
1 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
2 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
3 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
4 万国根;面向内容的网络安全监控模型及其关键技术研究[D];电子科技大学;2005年
5 张磊;个性化信息分发及概念检索的研究[D];中国科学院研究生院(计算技术研究所);2002年
6 谭建龙;串匹配算法及其在网络内容分析中的应用[D];中国科学院研究生院(计算技术研究所);2003年
7 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
8 吴科;基于机器学习的文本分类研究[D];上海交通大学;2008年
中国硕士学位论文全文数据库 前10条
1 何尧;基于半监督学习的中文文档分类技术研究[D];中南大学;2005年
2 张汇;基于贝叶斯的网页文本分类算法[D];华中科技大学;2004年
3 朱祥玉;基于向量空间模型的自适应文本过滤系统研究[D];山东师范大学;2006年
4 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
5 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
6 周威成;信息过滤方法的研究与应用[D];华北电力大学(北京);2003年
7 陈乐;基于智能文本分类技术的素材管理软件的设计与开发[D];南京师范大学;2003年
8 姚松源;文本自动分类系统的研究与实现[D];北京工业大学;2003年
9 张利军;数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能[D];西北工业大学;2003年
10 李珊;远程教学中自动答疑系统的研究[D];河海大学;2004年
【参考文献】
中国期刊全文数据库 前1条
1 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
【共引文献】
中国期刊全文数据库 前10条
1 江志雄,丁岳伟;基于K-近邻方法的网络信息文本分类[J];上海理工大学学报;2005年01期
2 雷鸣,刘建国,王建勇,陈葆珏;一种基于词典的搜索引擎系统动态更新模型[J];计算机研究与发展;2000年10期
3 丁文斌,李斌,罗浩;基于改进贝叶斯的垃圾邮件过滤系统设计与实现[J];计算机工程与应用;2005年18期
4 冯是聪,张志刚,李晓明;一种中文网页自动分类方法的实现及应用[J];计算机工程;2004年05期
5 吴光远,何丕廉,曹桂宏,聂颂;基于向量空间模型的词共现研究及其在文本分类中的应用[J];计算机应用;2003年S1期
6 褚金正,章兢;基于几何距离可分性判据的文本特征提取[J];企业技术开发;2005年07期
7 郑小慎 ,何丕廉 ,陈治纲 ,任大同 ,吴克敏;基于凝聚点的文本动态聚类分析[J];微型机与应用;2004年08期
8 韩惠琴,刘柏嵩,董其军;知识发现在数字图书馆中的应用[J];大学图书馆学报;2001年01期
9 周水庚,关佶红,胡运发;无需词典支持和切词处理的中文文档分类[J];高技术通讯;2001年03期
10 陈勤!信息工程分院,张国煊!信息工程分院,王小华!信息工程分院;文本自动模糊分类方法的研究[J];杭州电子工业学院学报;1999年04期
中国博士学位论文全文数据库 前10条
1 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
2 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
3 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
4 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
5 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
6 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
7 吴翔;产品4D信息模型的基础技术研究[D];武汉理工大学;2005年
8 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
9 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
10 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
中国硕士学位论文全文数据库 前10条
1 唐志文;搜索引擎中数据对象研究[D];湖南大学;2001年
2 贾自艳;中文智能搜索引擎关键技术研究[D];北京工业大学;2001年
3 张美香;贝叶斯文本分类器的研究与改进[D];太原理工大学;2005年
4 邹加棋;中文网页自动分类关键技术研究[D];福州大学;2006年
5 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年
6 甘立国;中文文本分类系统的研究与实现[D];北京化工大学;2006年
7 叶浩;基于类信息的潜在语义多类文本分类模型研究[D];江西师范大学;2006年
8 陈海波;基于自动分词的企业文档搜索引擎设计与实现[D];西北工业大学;2007年
9 王晓霞;基于支持向量机的中文网页自动分类技术研究[D];中北大学;2007年
10 余俊英;文本分类中特征选择方法的研究[D];江西师范大学;2007年
【同被引文献】
中国期刊全文数据库 前10条
1 李俭川,胡茑庆,秦国军,温熙森;贝叶斯网络理论及其在设备故障诊断中的应用[J];中国机械工程;2003年10期
2 孟祥武;神经网络研究综述[J];电脑学习;1998年01期
3 曾海泉,宋扬,刘永丹,胡运发;一个基于Rough集的用户兴趣访问模式的发现算法[J];计算机研究与发展;2002年12期
4 杨林 ,富元斋 ,黄立平;基于神经网络的分类算法的改进[J];计算机工程与应用;2002年05期
5 杨炳儒,游福成,梁开健;基于信息挖掘与推拉技术的IDSS的研究[J];计算机工程与应用;2003年03期
6 徐晓臻,高国安;案例推理在多准则评价智能决策支持系统中的应用研究[J];计算机集成制造系统-CIMS;2001年01期
7 杨涛,王云莉,肖田元,张林鍹;个性化主动设计知识服务系统研究[J];计算机集成制造系统-CIMS;2002年12期
8 陶跃华,孙茂松,王锡钢;因特网搜索引擎评价系统[J];计算机工程与科学;2001年03期
9 姚远;两种网站个性化方案及其实现[J];计算机应用研究;2001年12期
10 戴晓晖,李敏强,寇纪淞;遗传算法理论研究综述[J];控制与决策;2000年03期
中国博士学位论文全文数据库 前10条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
3 张燕平;基于商空间的构造性数据挖掘方法及应用[D];安徽大学;2003年
4 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
5 李俭川;贝叶斯网络故障诊断与维修决策方法及应用研究[D];中国人民解放军国防科学技术大学;2002年
6 刘海峰;安全操作系统若干关键技术的研究[D];中国科学院研究生院(软件研究所);2002年
7 邓爱林;电子商务推荐系统关键技术研究[D];复旦大学;2003年
8 李善熙;汉语“主观量”的表达研究[D];中国社会科学院研究生院;2003年
9 尹俊;内蒙古绒山羊毛囊发育、生长周期及相关基因的研究[D];内蒙古大学;2004年
10 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
中国硕士学位论文全文数据库 前10条
1 时达明;Blog热点话题发现及其作者声誉度研究[D];大连理工大学;2007年
2 陈平;基于SVM的中文文本分类相关算法的研究与实现[D];西北大学;2008年
3 尚旭祥;基于关联的中文文本分类系统的设计与实现[D];解放军信息工程大学;2006年
4 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
5 宁静;基于数据挖掘的中文垃圾邮件过滤技术研究[D];西南交通大学;2006年
6 刘敏娟;基于网格的聚类算法分析与研究[D];郑州大学;2007年
7 林丽;基于语义距离的文本聚类算法研究[D];厦门大学;2007年
8 马宏伟;基于SVM的中文文本分类系统的建模与实现[D];大连理工大学;2006年
9 吕晓辉;Web信息提取技术研究[D];西北工业大学;2001年
10 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
【二级引证文献】
中国期刊全文数据库 前10条
1 李树青;崔北亮;;搜索引擎系统中的Web个性化信息推荐技术[J];情报杂志;2006年09期
2 谭金波;;文本层次分类中特征项权重算法的比较研究[J];情报杂志;2007年09期
3 战守义,井新;加入时间因素的个性化信息过滤技术[J];北京理工大学学报;2005年09期
4 王金凤;一种基于特征聚合理论和LSI的文本分类新方法[J];北京理工大学学报(社会科学版);2004年05期
5 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报(自然科学版);2003年03期
6 张莉,康耀红,王曙光,张春元;中文网页自动分类现状的研究[J];福建电脑;2004年05期
7 何峰,林亚丽;改进的KNN文本分类算法综述[J];福建电脑;2005年01期
8 贺卫红;曹毅;;基于向量空间模型文本过滤算法[J];系统工程;2005年10期
9 谢科;张辉;陈鹏;庞斌;;文本分类系统关键技术[J];广西师范大学学报(自然科学版);2007年02期
10 索红光;杨涛;;基于互信息的Web文档聚类方法[J];广西师范大学学报(自然科学版);2007年02期
中国重要会议论文全文数据库 前1条
1 唐明珠;张远平;杨佳;;基于背景知识的SVM文本分类[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
2 刘康苗;自适应网络信息获取服务技术研究[D];浙江大学;2008年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
5 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
6 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
7 赵晖;支持向量机分类方法及其在文本分类中的应用研究[D];大连理工大学;2006年
8 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年
9 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
10 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 程玉柱;基于汉字数学表达式的中文文本零水印方法研究[D];湖南大学;2005年
2 朱干江;非参数密度估计在判别分析中的应用[D];南京信息工程大学;2007年
3 曾雪强;潜在语义分类模型的研究[D];江西师范大学;2005年
4 付雪峰;基于模糊—粗糙集的文本分类模型[D];江西师范大学;2005年
5 刘康苗;自适应网络信息获取服务技术研究[D];浙江大学;2008年
6 杨振;基于Rough Set理论的文本分类器研究[D];辽宁科技大学;2006年
7 李家兵;交叉覆盖算法下文本分类的研究[D];安徽大学;2007年
8 田萱;基于Internet的信息检索若干问题的研究[D];山东师范大学;2003年
9 王汉萍;粗糙集理论在文本挖掘的分类算法中的应用研究[D];中国海洋大学;2003年
10 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
【二级参考文献】
中国期刊全文数据库 前1条
1 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
【相似文献】
中国期刊全文数据库 前10条
1 蔡华利;刘鲁;王理;;突发事件Web新闻多层次自动分类方法[J];北京工业大学学报;2011年06期
2 潘正高;侯传宇;谈成访;;基于命名实体的Web新闻文本分类方法[J];合肥工业大学学报(自然科学版);2011年08期
3 吴谋硕;;基于遗传算法的文本分类技术[J];电脑知识与技术;2011年22期
4 高金勇;徐朝军;冯奕竸;;基于迭代的TFIDF在短文本分类中的应用[J];情报理论与实践;2011年06期
5 唐云;罗俊松;;基于粗糙集和BP神经网络的文本分类研究[J];计算机仿真;2011年06期
6 胥桂仙;向春丞;翁彧;赵小兵;杨国胜;;基于栏目的藏文网页文本自动分类方法[J];中文信息学报;2011年04期
7 张国梁;肖超锋;;基于SVM新闻文本分类的研究[J];电子技术;2011年08期
8 刘新生;厉锟;;基于BP神经网络的旅游突发事件文本分类系统的设计与实现[J];计算机与现代化;2011年07期
9 王斌;朴顺姬;邵华清;;基于粗糙集的KNN的WEB文本分类的研究[J];数字技术与应用;2011年08期
10 张春元;;基于条件随机场的文本分类模型[J];计算机技术与发展;2011年07期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 罗海飞;虞立群;章志凌;邵晓敏;陈林;汪更生;陈弈秋;何伟杰;;一种改进型CHI的特征抽取方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
3 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
4 薛永刚;朱靖波;魏刚;;基于核主成分分析的文本分类[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
6 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 朱慕华;朱靖波;陈文亮;;面向支持向量机的降维方法比较分析[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 伍建军;康耀红;;关于文本分类中特征降维方式的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前5条
1 特约撰稿人 郑优军 甄浩;文稿输入让键盘走开[N];电脑报;2001年
2 本报记者 洪奇;手写笔:21世纪的主流输入技术[N];计算机世界;2001年
3 希安;微软试水信息检索[N];经济日报;2004年
4 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
5 徐昕;正在成熟的生物识别技术[N];中国计算机报;2006年
中国博士学位论文全文数据库 前10条
1 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
2 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
3 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
4 杨茂龙;相关投影分析在特征抽取中的应用研究[D];南京理工大学;2011年
5 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
6 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
7 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
8 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
9 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
10 赵才荣;基于图嵌入与视觉注意的特征抽取[D];南京理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 蒋冀翔;基于非负矩阵分解的信息获取方法研究[D];东南大学;2006年
2 陈治纲;基于向量空间模型的文本分类系统研究与实现[D];天津大学;2005年
3 甘立国;中文文本分类系统的研究与实现[D];北京化工大学;2006年
4 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
5 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
6 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
7 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
8 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
9 闫晨;KNN文本分类研究[D];燕山大学;2010年
10 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026