收藏本站
《计算机应用》 2005年09期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于词频差异的特征选取及改进的TF-IDF公式

罗欣  夏德麟  晏蒲柳  
【摘要】:文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度及准确度。

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 李艳玲;戴冠中;朱烨行;;基于类别空间模型的文本倾向性分类方法[J];计算机应用;2007年09期
中国重要会议论文全文数据库 前1条
1 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国硕士学位论文全文数据库 前1条
1 周晓兰;基于XML的WEB数据挖掘[D];中南大学;2007年
【参考文献】
中国期刊全文数据库 前3条
1 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期
2 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
3 刘少辉,董明楷,张海俊,李蓉,史忠植;一种基于向量空间模型的多层次文本分类方法[J];中文信息学报;2002年03期
【共引文献】
中国期刊全文数据库 前10条
1 陈文亮;朱靖波;朱慕华;姚天顺;;基于领域词典的文本特征表示[J];计算机研究与发展;2005年12期
2 张毓敏,谢康林;基于SOM算法实现的文本聚类[J];计算机工程;2004年01期
3 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
4 吴雅娟,柳培林 ,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期
5 王煜,张明,马力;基于词条聚合和决策树的文本分类方法[J];河北大学学报(自然科学版);2005年03期
6 江志雄,丁岳伟;基于K-近邻方法的网络信息文本分类[J];上海理工大学学报;2005年01期
7 程泽凯,陆小艺;文本分类中的特征选择方法[J];安徽工业大学学报(自然科学版);2004年03期
8 章兰,杨季文,江浩;基于VSM模型的动态文本分类器的设计[J];河海大学常州分校学报;2004年02期
9 孙国菊,张杰;中文文本分类的特征选取评价[J];哈尔滨理工大学学报;2005年01期
10 袁方,杨柳,张红霞;基于k-近邻方法的渐进式中文文本分类技术[J];华南理工大学学报(自然科学版);2004年S1期
中国重要会议论文全文数据库 前7条
1 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 张琼;陈群秀;;基于最大熵模型的语句自动分类研究[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
7 陈文亮;朱慕华;朱靖波;姚天顺;;基于Bootstrapping的文本分类模型[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
2 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
3 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
4 杜文斌;基于神经网络的冠心病证候诊断标准与药效评价模型研究[D];辽宁中医学院;2004年
5 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
6 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
7 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年
8 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
9 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
10 万国根;面向内容的网络安全监控模型及其关键技术研究[D];电子科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 那宝贵;面向合作伙伴选择的中文WEB信息获取系统研究[D];辽宁工程技术大学;2007年
2 万伟;本体论在公安案情理解中的研究与应用[D];南昌大学;2007年
3 倪茂树;基于语义理解的观点评论挖掘研究[D];大连理工大学;2007年
4 杨霞;基于JXTA的P2P文件搜索机制的研究与应用[D];大连理工大学;2008年
5 马文娟;文本特征降维与分类规则抽取方法研究与应用[D];大连理工大学;2007年
6 徐琳宏;基于语义资源的文本情感计算[D];大连理工大学;2007年
7 许琦;个性化信息服务技术研究[D];浙江大学;2007年
8 王海龙;汉语关键词识别与主题信息提取的研究及应用[D];北京交通大学;2007年
9 旺建华;中文文本分类技术研究[D];吉林大学;2007年
10 赵俊芹;顾客评论信息抽取算法的研究[D];重庆大学;2007年
【同被引文献】
中国期刊全文数据库 前10条
1 孙国菊,张杰;中文文本分类的特征选取评价[J];哈尔滨理工大学学报;2005年01期
2 徐凤亚,罗振声;文本自动分类中特征权重算法的改进研究[J];计算机工程与应用;2005年01期
3 王秀娟,郭军,郑康锋;文本分类中一种新的特征选择方法[J];计算机应用;2005年03期
4 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
5 陈涛,宋妍,谢阳群;基于IIG和LSI组合特征提取方法的文本聚类研究[J];情报学报;2005年02期
6 王煜;白石;王正欧;;用于Web文本分类的快速KNN算法[J];情报学报;2007年01期
7 刘海峰;王元元;;基于向量模型的文本检索若干问题研究[J];情报杂志;2006年10期
8 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
9 陈涛,谢阳群;文本分类中的特征降维方法综述[J];情报学报;2005年06期
10 原福永,褚蓓蓓;一种基于超链接结构的向量空间模型改进算法[J];中文信息学报;2005年04期
中国硕士学位论文全文数据库 前2条
1 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
2 张俊艳;基于SVM有聚类指导的Web中文文本分类器的研究及其实现[D];福州大学;2004年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 倪茂树;基于语义理解的观点评论挖掘研究[D];大连理工大学;2007年
【二级参考文献】
中国期刊全文数据库 前4条
1 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
2 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
3 李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期
4 张月杰,姚天顺;基于特征相关性的汉语文本自动分类模型的研究[J];小型微型计算机系统;1998年08期
【相似文献】
中国期刊全文数据库 前10条
1 阎平凡,陈传涓,舒仪经;关于细胞自动分析中的几个问题[J];信息与控制;1980年03期
2 吴佑寿;汉字计算机自动识别研究的进展[J];科学通报;1991年04期
3 陈碧莲,李书珍;关于计算机辅助医学诊断中几个问题的探讨[J];中国中医药信息杂志;1995年10期
4 王年,任彬,黄勇,汪炳权;人工神经网络在公路车辆管理中的应用[J];电子技术应用;1998年09期
5 于秀兰,钱国蕙,贾晓光;多光谱和 SAR遥感图像融合分类的特征选取[J];红外与毫米波学报;2000年06期
6 曾黄麟,曾谦;基于不确定性问题研究方法评价系统参数的重要性[J];系统工程理论与实践;2000年11期
7 甘淑,袁希平,何大明;澜沧江流域山区土地覆盖遥感监测中PCA特征变换处理[J];昆明理工大学学报;2000年06期
8 王爱华,张铭,杨冬青,唐世渭;PCCS部分聚类分类:一种快速的Web文档聚类方法[J];计算机研究与发展;2001年04期
9 陈湘晖,朱善君,吉吟东;与特征选取和离散化集成的决策规则挖掘方法[J];系统工程理论与实践;2001年11期
10 陈真勇,何永勇,褚福磊,黄靖远;基于遗传进化的最近邻聚类算法及其应用[J];控制与决策;2002年04期
中国重要会议论文全文数据库 前10条
1 曾黄麟;曾谦;;系统参数重要性与不确定性问题研究[A];1999年中国智能自动化学术会议论文集(上册)[C];1999年
2 王景新;戴葵;王志英;;入侵检测系统的特征提取研究[A];第六届全国计算机应用联合学术会议论文集[C];2002年
3 尹东;任志清;侯蕾;;基于智能Agent的目标特征选取研究[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
4 张仰森;曹元大;;最大熵建模方法中一种改进的特征选择算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 朱慕华;朱靖波;陈文亮;;面向支持向量机的降维方法比较分析[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 付丽琴;韩焱;;基于立体匹配技术的射线图像三维信息重建技术研究[A];第十一届中国体视学与图像分析学术会议论文集[C];2006年
7 欧阳佑;李素建;;条件随机域模型和实验分析[A];第三届学生计算语言学研讨会论文集[C];2006年
8 李红雷;李福兴;高凯;;基于红外光谱的变压器故障特征气体检测[A];2006全国电工测试技术学术交流会论文集[C];2006年
9 林妍;申东日;马君杰;李红波;;RS理论在神经网络特征参数选取中的应用研究[A];2006中国控制与决策学术年会论文集[C];2006年
10 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前3条
1 邹涛;智能网络入侵检测系统关键技术研究[D];国防科学技术大学;2004年
2 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
3 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年
中国硕士学位论文全文数据库 前10条
1 陈波;中文WEB文档自动分类的研究与实现[D];武汉理工大学;2005年
2 周莉;基于特征优化选取和神经网络分类的在线手写签名验证术[D];武汉理工大学;2005年
3 朱云华;基于基因表达谱的小圆蓝细胞瘤亚型识别研究[D];北京工业大学;2005年
4 王会珍;面向话题追踪的特征选取与文本表示技术的研究[D];东北大学;2005年
5 张猛;文本聚类中参数自动设置技术的研究与实现[D];东北大学;2005年
6 马慧敏;中文文本自动分类方法的研究和实现[D];华北电力大学(河北);2005年
7 朱军;中文垃圾邮件过滤技术研究及应用[D];合肥工业大学;2005年
8 许楠;基于神经网络的在线手写签名验证方法研究[D];武汉理工大学;2006年
9 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
10 赵金辉;自动指纹识别系统的设计与实现[D];中国地质大学(北京);2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026