收藏本站
《情报理论与实践》 2011年06期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于迭代的TFIDF在短文本分类中的应用

高金勇  徐朝军  冯奕竸  
【摘要】:为了给教育研究和管理提供可靠的决策支持,对网络信息进行分类处理就成为了一种需要。鉴于TFIDF对短文本分类存在的缺陷,本文采用基于迭代的TFIDF算法对文本向量进行了优化。试验结果表明,基于迭代的TFIDF算法可以有效提高短文本文档分类的准确率。

【引证文献】
中国硕士学位论文全文数据库 前1条
1 范云杰;基于维基百科的中文短文本分类研究[D];西安电子科技大学;2013年
【参考文献】
中国期刊全文数据库 前5条
1 李雪蕾,张冬茉;一种基于向量空间模型的文本分类方法[J];计算机工程;2003年17期
2 施聪莺;徐朝军;杨晓江;;TFIDF算法研究综述[J];计算机应用;2009年S1期
3 张东礼,汪东升,郑纬民;基于VSM的中文文本分类系统的设计与实现[J];清华大学学报(自然科学版);2003年09期
4 谭金波,李艺,杨晓江;文本自动分类的测评研究进展[J];现代图书情报技术;2005年05期
5 杨奋强;刘玉贵;;文本分类中基于类别概念的特征选择方法[J];计算机系统应用;2009年10期
【共引文献】
中国期刊全文数据库 前10条
1 刘辉;邵良杉;;Web文本分类中特征项权重的研究[J];科技和产业;2010年02期
2 阎亚杰;;网页去重方法研究[J];电脑开发与应用;2008年08期
3 闫超;;基于改进的SVM线性可分文本分类算法[J];电脑开发与应用;2010年08期
4 何海斌;司建辉;;大规模文本分类中特征提取方法的比较研究[J];电脑知识与技术;2009年21期
5 罗兴军;白晓波;;基于事件驱动模型的搜索引擎设计[J];电脑知识与技术;2011年28期
6 陈晶;;基于lattice的语音文档分类[J];大众科技;2010年01期
7 张冰波;;改进类中心分类算法在文本分类中的应用[J];大众科技;2010年10期
8 李小红;许少华;;基于模糊向量和BP网络的Web文本自动分类方法[J];福建电脑;2006年02期
9 徐家良;;个性化服务在WAP中的应用[J];福建电脑;2012年02期
10 孔素然;;基于散列思想的网页去重系统[J];硅谷;2010年22期
中国重要会议论文全文数据库 前4条
1 刘子豪;庄毅;;一种电子邮件敏感信息检测算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
2 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
3 李卫东;杨炳儒;李龙星;曲文龙;;基于中心词位置的VSM文本分类算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
4 彭渊;赵铁军;郑德权;于浩;;基于特征句抽取的网页去重研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前3条
1 申文武;无结构P2P网络中基于语义和节点存储能力的搜索关键技术研究[D];北京邮电大学;2011年
2 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
3 彭菲菲;网络热点话题发现的关键技术研究[D];中国矿业大学(北京);2012年
中国硕士学位论文全文数据库 前10条
1 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
2 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
3 张晓艳;面向农业信息服务平台的挖掘技术研究[D];湖南工业大学;2010年
4 李欢;基于多Agent及元搜索技术的中文问答系统的研究和应用[D];石家庄铁道学院;2009年
5 何文涛;基于分类文本库的文本分类系统的应用研究及实现[D];中国地质大学(北京);2011年
6 贾增朝;用于图像检索的视觉词汇树研究[D];西北大学;2011年
7 牛娟娟;搜索引擎系统中网页消重的研究与实现[D];河南大学;2011年
8 张韦;基于语义的Web主题提取的研究[D];湖北工业大学;2011年
9 刘超;一种基于特征向量的Web服务发现算法研究[D];吉林大学;2011年
10 丁若尧;基于博客的网络话题发现及追踪的研究[D];北京交通大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 李赟;黄开妍;任福继;钟义信;;维基百科的中文语义相关词获取及相关度分析计算[J];北京邮电大学学报;2009年03期
2 樊兴华;王鹏;;基于两步策略的中文短文本分类研究[J];大连海事大学学报;2008年03期
3 吴雅娟,柳培林 ,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期
4 闫瑞;曹先彬;李凯;;面向短文本的动态组合分类算法[J];电子学报;2009年05期
5 郭泗辉;樊兴华;;一种改进的贝叶斯网络短文本分类算法[J];广西师范大学学报(自然科学版);2010年03期
6 刘金岭;;基于降维的短信文本语义分类及主题提取[J];计算机工程与应用;2010年23期
7 宁亚辉;樊兴华;吴渝;;基于领域词语本体的短文本分类[J];计算机科学;2009年03期
8 王细薇;樊兴华;赵军;;一种基于特征扩展的中文短文本分类方法[J];计算机应用;2009年03期
9 黄永文;何中市;伍星;;用户评论的分类获取[J];计算机应用;2009年03期
10 施聪莺;徐朝军;杨晓江;;TFIDF算法研究综述[J];计算机应用;2009年S1期
中国重要会议论文全文数据库 前1条
1 苏小康;何婷婷;涂新辉;何金卓;;一种基于维基百科知识库的中文文本分类方法研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国硕士学位论文全文数据库 前7条
1 郭凯;面向Web文本的数据清洗关键技术的研究与实现[D];西安电子科技大学;2009年
2 周城;面向中文Web评论的情感分析技术研究[D];国防科学技术大学;2011年
3 吴薇;大规模短文本的分类过滤方法研究[D];北京邮电大学;2007年
4 马文娟;文本特征降维与分类规则抽取方法研究与应用[D];大连理工大学;2007年
5 柴春梅;互联网短文本信息分类关键技术研究[D];上海交通大学;2009年
6 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
7 邱强;基于关键词的文本分类研究[D];西北农林科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
2 孙铁利,杨凤芹;根据用户隐式反馈建立和更新用户兴趣模型[J];东北师大学报(自然科学版);2003年03期
3 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
4 景丽萍,黄厚宽,石洪波;用于文本挖掘的特征选择方法TFIDF及其改进[J];广西师范大学学报(自然科学版);2003年01期
5 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
6 徐凤亚,罗振声;文本自动分类中特征权重算法的改进研究[J];计算机工程与应用;2005年01期
7 初建崇;刘培玉;王卫玲;;Web文档中词语权重计算方法的改进[J];计算机工程与应用;2007年19期
8 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[J];计算机工程与应用;2007年35期
9 熊忠阳;黎刚;陈小莉;陈伟;;文本分类中词语权重计算方法的改进与应用[J];计算机工程与应用;2008年05期
10 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
中国博士学位论文全文数据库 前1条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
中国硕士学位论文全文数据库 前1条
1 王宇;基于TFIDF的文本分类算法研究[D];郑州大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 李慧;李存华;王霞;;文本分类中基于差值思想的多特征选择算法研究[J];微计算机应用;2009年10期
2 孙荣宗;;一种快速KNN文本分类算法[J];电脑知识与技术;2010年01期
3 代磊;马卫东;王凌楠;马建国;;基于权重的朴素贝叶斯分类器设计与实现[J];情报理论与实践;2008年03期
4 任国锋;李德华;潘莹;;一种改进的基尼指数特征权重算法[J];计算机与数字工程;2010年12期
5 刘海博;郗亚辉;王煜;;用于文本分类的快速KNN算法[J];河北大学学报(自然科学版);2008年03期
6 张春红;;文本分类技术应用于学科导航分类的可行性探讨[J];情报科学;2009年07期
7 王强;;决策树在文本分类中的应用[J];科技情报开发与经济;2007年17期
8 陈勤,张国煊,王小华;基于模糊综合评判的文本自动分类算法[J];计算机应用与软件;2001年09期
9 韩家新,何华灿;SVMDT分类器及其在文本分类中的应用研究[J];计算机应用研究;2004年01期
10 王丁,运海红,张辉;文本自动分类系统的研究与实现[J];信息技术;2005年03期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 房一飞;张冬茉;;基于boosting的文本分类在股市领域信息抽取系统中的应用[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 PALADIN;算法中的NP问题[N];电脑报;2003年
2 ;机器人激活算法和程序设计教学[N];中国电脑教育报;2004年
3 记者 侯建华;会计所算了经济账又算法律账[N];重庆商报;2001年
4 汪蔚;用算法改变世界[N];中国计算机报;2008年
5 PALADIN;算法演义[N];电脑报;2003年
6 记者 雷敏 张旭东 刘铮;我国人均GDP仍在世界100位之后[N];新华每日电讯;2005年
7 H Q;改善照片VCD的制作效果[N];电脑报;2003年
8 南京 朱罕非;一种实用单片机多字节除法的算法[N];电子报;2004年
9 胡英;高安全行业应考虑SSL VPN算法[N];计算机世界;2007年
10 格非;不以“饭量”算“房量”[N];中国房地产报;2005年
中国博士学位论文全文数据库 前10条
1 唐煜;均匀设计的组合性质及其构作[D];苏州大学;2005年
2 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
3 廖一星;文本分类及其特征降维研究[D];浙江大学;2012年
4 余金华;电阻层析成像技术应用研究[D];浙江大学;2005年
5 Zhao Peixin;[D];山东大学;2005年
6 吕翔;波长路由光网络相关问题研究[D];浙江大学;2006年
7 郑文斌;基于正则化线性统计模型的文本分类研究[D];浙江大学;2012年
8 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
9 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
10 申远;一些求解结构型优化的一阶算法[D];南京大学;2012年
中国硕士学位论文全文数据库 前10条
1 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
2 杨昂;文本分类算法研究[D];湖南大学;2002年
3 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
4 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
5 闫晨;KNN文本分类研究[D];燕山大学;2010年
6 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
7 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
8 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
9 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
10 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026