收藏本站
《计算机研究与发展》 2006年10期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

文本分类中基于基尼指数的特征选择算法研究

尚文倩  黄厚宽  刘玉玲  林永民  瞿有利  董红斌  
【摘要】:随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,自动文本分类已成为处理和组织大量文档数据的关键技术.对于采用矢量空间模型(VSM)的大多数分类器来说,文本预处理成为分类的瓶颈,高维的特征空间对于大多数分类器来说是难以忍受的,因此采用适当的文本特征选择算法降低原始文本特征空间的维数成为文本分类的首要任务.目前也有很多的文本特征选择算法,介绍了另一种新的基于基尼指数的文本特征选择算法,使用基尼指数原理进行了文本特征选择的研究,构造了基于基尼指数的适合于文本特征选择的特征选择评估函数.实验表明,基于基尼指数的文本特征选择能进一步提高分类性能,而且计算复杂度

【引证文献】
中国重要会议论文全文数据库 前1条
1 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国硕士学位论文全文数据库 前1条
1 余俊英;文本分类中特征选择方法的研究[D];江西师范大学;2007年
【参考文献】
中国期刊全文数据库 前2条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
2 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
【共引文献】
中国期刊全文数据库 前10条
1 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
2 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
3 陈文庆,李勤,姚伽华;基于最大熵模型的垃圾邮件过滤技术[J];广西师范学院学报(自然科学版);2005年01期
4 鲁明羽,张红,付克明,陆玉昌;Web ME——一个大型网络挖掘环境系统[J];哈尔滨工业大学学报;2004年09期
5 刘涛,吴功宜,陈正;一种高效的用于文本聚类的无监督特征选择算法[J];计算机研究与发展;2005年03期
6 石志伟,刘涛,吴功宜;一种快速高效的文本分类方法[J];计算机工程与应用;2005年29期
7 贾宁;;使用概念基元特征进行自动文本分类[J];计算机工程与应用;2007年01期
8 李国臣,段建勇;基于语法语义信息量化模型的语素字再分类[J];计算机工程;2004年11期
9 杨广翔,俞宁,谌莉;搜索引擎结果的重排序方法[J];计算机应用;2005年02期
10 董小国;甘立国;;基于句子重要度的特征项权重计算方法[J];计算机与数字工程;2006年08期
中国重要会议论文全文数据库 前5条
1 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 谷波;刘开瑛;;决策树模型和最大熵模型在文本分类中的比较研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 张玮;孙乐;冯元勇;吕元华;;一种结合分类模型的中文输入法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
5 赵燕平;李超;;网络安全信息挖掘中的特征选择与专利分析研究[A];2004年中国管理科学学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
2 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
3 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
4 席运江;组织知识的网络表示模型及分析方法[D];大连理工大学;2007年
5 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
6 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
7 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
8 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
9 孟静;光学层析图像的重建技术研究[D];苏州大学;2006年
10 古平;基于贝叶斯模型的文档分类及相关技术研究[D];重庆大学;2006年
中国硕士学位论文全文数据库 前10条
1 姚清耘;基于向量空间模型的中文文本聚类方法的研究[D];上海交通大学;2008年
2 王鹏;基于本体的Web服务发现关键技术与模型研究[D];大连海事大学;2008年
3 贾丙静;聚类分析在Web文本挖掘中的应用研究[D];辽宁工程技术大学;2007年
4 孙登林;基于概念网的不良信息过滤研究与实现[D];上海交通大学;2008年
5 吴新涛;基于向量空间模型的网页信息过滤方法研究[D];大连理工大学;2008年
6 庞宁;基于最大熵模型的共指消解研究[D];山西大学;2007年
7 张亚平;基于粗糙集和神经网络的数据分类技术研究[D];大连理工大学;2008年
8 王莹;基于错误驱动的汉语词性标注研究[D];北京邮电大学;2007年
9 魏建;基于语义中心的KNN文本分类算法研究[D];南京理工大学;2007年
10 李家兵;交叉覆盖算法下文本分类的研究[D];安徽大学;2007年
【同被引文献】
中国期刊全文数据库 前10条
1 徐燕,怀进鹏,王兆其;基于区分能力大小的启发式约简算法及其应用[J];计算机学报;2003年01期
2 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
3 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
4 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
5 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
6 李蓉,刘少辉,叶世伟,史忠植;基于SVM和k-NN结合的汉语交集型歧义切分方法[J];中文信息学报;2001年06期
7 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
8 赵世奇,张宇,刘挺,陈毅恒,黄永光,李生;基于类别特征域的文本分类特征选择方法[J];中文信息学报;2005年06期
9 陈涛,谢阳群;文本分类中的特征降维方法综述[J];情报学报;2005年06期
10 张东礼,汪东升,郑纬民;基于VSM的中文文本分类系统的设计与实现[J];清华大学学报(自然科学版);2003年09期
中国博士学位论文全文数据库 前1条
1 赵晖;支持向量机分类方法及其在文本分类中的应用研究[D];大连理工大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 陶兰,申军霞;文本信息自动分类系统ITC98(Ⅱ)──基于BP网络的文本分类子系统[J];中国农业大学学报;1999年04期
2 陆蓓!信息工程分院,王小华!信息工程分院,陈勤!信息工程分院;基于多智能体的文本分类模型[J];杭州电子工业学院学报;1999年04期
3 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
4 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
5 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
6 杨斌,孟志青;一种文本分类数据挖掘的技术[J];湘潭大学自然科学学报;2001年04期
7 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
8 刘贵龙,王慧玲,宋柔;矩阵的奇异值分解在文本分类研究中的应用[J];计算机工程;2002年12期
9 刁力力 ,胡可云 ,陆玉昌 ,石纯一;用Boosting方法组合增强Stumps进行文本分类(英文)[J];软件学报;2002年08期
10 王小华,张国煊,陆蓓;文本分类系统的评价因素探讨[J];杭州电子工业学院学报;2002年03期
中国重要会议论文全文数据库 前10条
1 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 孙晓明;马少平;;基于写作风格的作者识别[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 房一飞;张冬茉;;基于boosting的文本分类在股市领域信息抽取系统中的应用[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
7 殷苌茗;陈焕文;谢丽娟;;基于最大期望学习算法的无标识文本分类[A];2002中国控制与决策学术年会论文集[C];2002年
8 金千里;赵军;徐波;;弱指导的统计隐含语义分析及其在跨语言信息检索中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 张鑫;程学旗;谭建龙;王映;;一种快速的多模式串匹配算法及其在实时汉语文本分类系统中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前4条
1 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
2 希安;微软试水信息检索[N];经济日报;2004年
3 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
4 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
中国博士学位论文全文数据库 前10条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
4 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
5 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
6 赵晖;支持向量机分类方法及其在文本分类中的应用研究[D];大连理工大学;2006年
7 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
8 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
9 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
10 万国根;面向内容的网络安全监控模型及其关键技术研究[D];电子科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 杨昂;文本分类算法研究[D];湖南大学;2002年
3 翟静;可扩展的文本分类系统的核心API的设计与实现[D];四川大学;2003年
4 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
5 湛燕;K-近邻、K-均值及其在文本分类中的应用[D];河北大学;2003年
6 黄海英;基于概念空间的文本分类的应用研究[D];广西师范大学;2002年
7 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
8 梅胜;基于SVM的多层次大类别数文本分类系统(HJ-TCM)的设计与实现[D];南京理工大学;2004年
9 张滨;中文文档分类技术研究[D];武汉大学;2004年
10 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026