收藏本站
《重庆师范大学学报(自然科学版)》 2009年02期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于改进分类模型的文本分类系统实现

吕佳  
【摘要】:提出一种基于改进的分类模型的文本分类系统来实现文本的自动分类。针对传统的特征提取算法不能很好区分特征词在类内和类间分布情况的缺陷,该系统利用方差对该算法作了改进,用改进的特征提取算法量化各个特征词的权重,为了降低特征向量的维数,采用为每个类建分类器的分类模型,利用遗传算法来修正各个类特征词的权重,直到为每个类训练出能够代表本类的特征向量,最后用这些类的特征向量进行分类。通过在同一数据集上进行对比实验,说明本文提出的改进分类模型的文本分类系统是正确可行的。

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 吕佳;;结合全局和局部正则化的半监督二分类算法[J];计算机应用;2012年03期
中国硕士学位论文全文数据库 前2条
1 黄小慧;基于本体的网络问政知识管理机制研究[D];华南理工大学;2011年
2 吴世竞;垃圾短信过滤系统的设计与实现[D];北京邮电大学;2012年
【参考文献】
中国期刊全文数据库 前8条
1 吕佳;;Web日志挖掘技术应用研究[J];重庆师范大学学报(自然科学版);2006年04期
2 吕佳;;基于免疫聚类的Web日志挖掘[J];重庆师范大学学报(自然科学版);2007年02期
3 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
4 唐焕玲,孙建涛,陆玉昌;文本分类中结合评估函数的TEF-WA权值调整技术[J];计算机研究与发展;2005年01期
5 张宁,贾自艳,史忠植;使用KNN算法的文本分类[J];计算机工程;2005年08期
6 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
7 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
8 寇莎莎,魏振军;自动文本分类中权值公式的改进[J];计算机工程与设计;2005年06期
【共引文献】
中国期刊全文数据库 前10条
1 林正奎;唐焕玲;鲁明羽;王敬东;;基于特征多视图提升Naive Bayesian的Boosting改进算法[J];北京交通大学学报;2009年06期
2 李玉鑑;周兰珍;操卫平;;基于DF和CHI的联合特征提取方法及其应用[J];北京工业大学学报;2008年09期
3 杨勇涛;;文本自动摘要提取算法[J];成都大学学报(自然科学版);2009年02期
4 袁晓峰;;一种基于主题的Web文本聚类算法[J];成都大学学报(自然科学版);2010年03期
5 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
6 肖红;刘淑华;;一种文本多级分类方法研究[J];长江大学学报(自然科学版)理工卷;2008年02期
7 吕佳;;基于免疫聚类的Web日志挖掘[J];重庆师范大学学报(自然科学版);2007年02期
8 吕佳;;基于动态隧道系统的K-means聚类算法研究[J];重庆师范大学学报(自然科学版);2009年01期
9 杨文忠;章兢;彭曙蓉;;基于近似网页聚类的Web文本数据挖掘技术[J];长沙交通学院学报;2006年01期
10 李家兵;;基于交叉覆盖算法的文本分类研究[J];滁州学院学报;2008年05期
中国重要会议论文全文数据库 前10条
1 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
2 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
3 曹玉娟;牛振东;彭学平;江鹏;;一个基于特征向量的近似网页去重算法[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
4 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
5 卢卫雄;;一种基于支持向量机的多国语言文本分类平台[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
6 门洪;武玉杰;李小英;高艳春;;基于支持向量机的分类算法研究[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
7 王秀娟;郑康锋;杨星海;;线性鉴别分析在中文文本分类中的应用[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年
8 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 陈文亮;朱靖波;姚天顺;张宇新;;基于Bootstrapping的领域词汇自动获取[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 张琼;陈群秀;;基于最大熵模型的语句自动分类研究[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
中国博士学位论文全文数据库 前10条
1 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
4 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
5 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
6 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
7 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
8 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
9 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年
10 万国根;面向内容的网络安全监控模型及其关键技术研究[D];电子科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 岳海鸥;基于Ajax和Soap Service的应用框架及实现方法研究[D];山东科技大学;2010年
2 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
3 何昌钦;图像检索方法研究[D];大连理工大学;2010年
4 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
5 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
6 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
7 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
8 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
9 葛苗苗;基于校园网的网络用户行为分析研究[D];南京财经大学;2010年
10 姜伦;模糊聚类算法及其在中文文本聚类中的研究与实现[D];哈尔滨理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 刘舸;;垃圾短信的“双维度”分析和治理探讨[J];北京邮电大学学报(社会科学版);2007年04期
2 樊博;;绩效驱动的电子政务信息共享及协同应用[J];图书与情报;2008年04期
3 冀胜利;李波;;基于SVM的中文文本分类算法[J];重庆工学院学报(自然科学版);2008年07期
4 吕佳;;基于动态隧道系统的K-means聚类算法研究[J];重庆师范大学学报(自然科学版);2009年01期
5 刘红芝;;中文分词技术的研究[J];电脑开发与应用;2010年03期
6 李建刚;霍焱;;一种基于遗传神经网络文本分类器的研究[J];电脑知识与技术(学术交流);2007年11期
7 张娟;伍大清;;浅谈隐性知识管理研究[J];电脑知识与技术;2009年14期
8 蔡重;帅志军;;基于C# Socket编程的银行自动代发/代扣接口系统设计与实现[J];电脑知识与技术;2010年02期
9 赵春丽;;近年来国内学术界关于网络民主研究的综述[J];太原师范学院学报(社会科学版);2008年01期
10 黄文良;陈纯;罗云彬;;一种高效垃圾短信过滤系统的实现[J];电信科学;2008年05期
中国重要报纸全文数据库 前1条
1 万静;[N];法制日报;2006年
中国博士学位论文全文数据库 前2条
1 黄文良;垃圾短信过滤关键技术研究[D];浙江大学;2008年
2 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年
中国硕士学位论文全文数据库 前10条
1 肖静;企业内部知识共享问题研究[D];西南农业大学;2005年
2 李佳培;电子政务信息资源管理中的领域本体构建研究[D];天津师范大学;2006年
3 杜超华;基于本体的省情网垂直搜索引擎研究[D];华中师范大学;2007年
4 孙炜;基于语义网技术的主题搜索引擎原型研究及其在电子政务领域的应用[D];北京交通大学;2008年
5 熊浩勇;基于SVM的中文文本分类算法研究与实现[D];武汉理工大学;2008年
6 胡岩洁;基于本体的政务信息资源共享研究[D];复旦大学;2008年
7 陈小莉;基于信息增益的中文特征提取算法研究[D];重庆大学;2008年
8 吕翔;基于Ontology的政府信息资源检索系统分析与设计[D];南京航空航天大学;2008年
9 曹耀辉;基于WinCE终端垃圾短信过滤系统的设计与实现[D];华东师范大学;2008年
10 张福男;打印机领域本体的构建及应用研究[D];大连理工大学;2009年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 摄政;思想政治教育视域下的“网络问政”研究[D];中北大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 吕佳;;基于人工免疫网络的多峰值函数优化[J];重庆师范大学学报(自然科学版);2006年03期
2 吕佳;;Web日志挖掘技术应用研究[J];重庆师范大学学报(自然科学版);2006年04期
3 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
4 宋擒豹,沈钧毅;Web日志的高效多能挖掘算法[J];计算机研究与发展;2001年03期
5 王实,高文,李锦涛,谢辉;路径聚类:在Web站点中的知识发现[J];计算机研究与发展;2001年04期
6 董一鸿,庄越挺;基于新型的竞争型神经网络的Web日志挖掘[J];计算机研究与发展;2003年05期
7 朱寰,阮彤,于庆喜;文本分割算法对中文信息过滤影响研究[J];计算机工程与应用;2002年13期
8 郭岩;白硕;于满泉;;Web使用信息挖掘综述[J];计算机科学;2005年01期
9 恽爽,韩立新,董浚,陈道蓄;KDW综述:基于Web的数据挖掘[J];计算机工程;2003年01期
10 肖人彬,王磊;人工免疫系统:原理、模型、分析及展望[J];计算机学报;2002年12期
中国重要会议论文全文数据库 前1条
1 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
【相似文献】
中国期刊全文数据库 前10条
1 惠孛;吴跃;;基于不完全朴素贝叶斯分类模型的垃圾邮件分类模型[J];计算机应用;2009年03期
2 孙玉荣;罗立宇;黄慧华;;数据挖掘在网络教学中的应用[J];现代教育技术;2009年06期
3 李方;刘琼荪;;基于改进属性加权的朴素贝叶斯分类模型[J];计算机工程与应用;2010年04期
4 罗建宏;陈德钊;;粒计算应用于非平衡化学模式分类[J];计算机与应用化学;2010年04期
5 薛清川;朱怀芳;;用于两种模型的综合推理方法[J];西南交通大学学报;1992年02期
6 郭爱伟;陈立潮;叶树华;;基于贝叶斯分类算法的安全检测[J];科技情报开发与经济;2006年04期
7 沈模卫;乔歆新;张峰;陈硕;沈勇;;基于人格特征的即时通讯软件用户分类模型[J];应用心理学;2006年03期
8 邓维斌;王国胤;王燕;;基于Rough Set的加权朴素贝叶斯分类算法[J];计算机科学;2007年02期
9 黄聃;;基于概率模型Web服务描述分类方法[J];制造业自动化;2010年02期
10 张剑锋;刘兴纲;;数据挖掘技术在网站报警系统中的应用[J];信息系统工程;2010年06期
中国重要会议论文全文数据库 前10条
1 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 胡良梅;张骏;谢昭;;Booosting及其在图像理解中应用综述[A];第七届全国信息获取与处理学术会议论文集[C];2009年
3 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 刘萌伟;陈子燊;王扬圣;;基于径向基神经网络的海滩前滨剖面状态分类模型[A];中国海洋湖沼学会第九次全国会员代表大会暨学术研讨会论文摘要汇编[C];2007年
5 彭渊;赵铁军;郑德权;于浩;;基于特征句抽取的网页去重研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 宋志新;龙虹;;数据挖掘在电信领域客户流失分析中的应用[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
7 王孟;白清源;谢丽聪;谢伙生;张莹;;一种含有负项的关联文本分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
9 朱大洲;籍保平;耿朝曦;屠振华;史波林;庆兆坤;;基于中波近红外光谱的苹果汁品种产地鉴别研究[A];第十五届全国分子光谱学术报告会论文集[C];2008年
10 张刚;刘挺;秦兵;车万翔;李生;;面向信息内容安全的文本过滤系统研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 ;如何评估和应用监督模型[N];计算机世界;2007年
2 马浩;无所不在的2X2矩阵[N];经济观察报;2006年
3 本报记者 胡珉琦;论文反抄袭软件被“攻克”[N];北京科技报;2011年
4 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
5 俞扬;“洪武赶散”与泰州方言[N];泰州日报;2006年
6 阎平;汽车营销应分疆而治[N];中国汽车报;2004年
7 朱莉;互联网应用你知道多少?[N];中国电脑教育报;2006年
8 韩圣海;搭台零售转型 交行谋布网点新棋局[N];第一财经日报;2007年
9 林俊铭;漳州地名用字解析[N];闽南日报;2008年
10 云南 张康宗;安全至上[N];电脑报;2003年
中国博士学位论文全文数据库 前10条
1 温昌衍;客家方言特征词研究[D];暨南大学;2001年
2 曹廷玉;赣方言特征词研究[D];暨南大学;2001年
3 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
4 符其武;琼北闽语词汇研究[D];厦门大学;2007年
5 张超;基于支持向量机的汽轮机轴系振动故障智能诊断研究[D];华北电力大学(河北);2009年
6 陈松鹤;数字舌图的舌色分析方法研究[D];北京中医药大学;2007年
7 蒙祖强;基于分类模型的知识发现机理和方法研究[D];中南大学;2004年
8 刘光远;基于数据挖掘的移动通信用户流失研究[D];吉林大学;2007年
9 惠孛;基于即时分类的垃圾邮件过滤关键技术的研究[D];电子科技大学;2009年
10 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
中国硕士学位论文全文数据库 前10条
1 赵子鹏;粒子群优化算法及其在图像检索中相关反馈上的应用[D];吉林大学;2006年
2 申情;基于粒度计算的分类方法研究[D];中北大学;2007年
3 路红梅;基于知识粗糙度度量的决策树构造方法研究[D];合肥工业大学;2007年
4 程旭;基于生活方式的云南大学生消费者分类及应用研究[D];昆明理工大学;2008年
5 孟峰年;“丝绸之路”甘肃段体育旅游资源开发理论的研究[D];北京体育大学;2007年
6 陈显祥;基于学生综合测评系统数据挖掘应用研究[D];贵州大学;2007年
7 孙群虎;基于空间分布和信息熵的特征词提取方法[D];大连理工大学;2010年
8 张琳;基于本体的文本分类的研究与实现[D];沈阳工业大学;2009年
9 邱培超;基于特征的观点挖掘中的若干关键问题研究[D];复旦大学;2011年
10 蒋磊;面向产品评论的意见挖掘关键技术研究[D];哈尔滨工业大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026