收藏本站
《计算机系统应用》 2017年11期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于Word2vec的文档分类方法

陈杰  陈彩  梁毅  
【摘要】:文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,有效地浓缩了特征词袋,降低了文档向量的维度;该方法还结合了TF-IDF算法,对特征词进行加权,给每个特征词赋予更合适的权重.本文与另外两种文档分类方法进行了对比实验,实验结果表明,本文提出的基于word2vec的文档分类方法在分类效果上较其他两种方法均有所提高.
【作者单位】北京工业大学信息学部;
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 孟海东;邱晓云;;浅谈基于数据挖掘文档分类方法研究[J];现代计算机(专业版);2010年12期
2 卢红;;对档案管理中的文档分类技术应用的分析[J];科技与企业;2013年18期
3 周水庚,俞红奇,胡江滔,付辛,胡运发;基于相邻字对信息的中文文档分类研究[J];小型微型计算机系统;2001年04期
4 方加沛;黄战;;基于单类别文档分类的主题爬虫[J];计算机工程与应用;2010年16期
5 孟海东;刘小荣;;基于聚类分析的图模型文档分类[J];计算机应用与软件;2012年01期
6 姜鹏;许峰;戚荣志;;一种基于云平台的防汛文档智能生成模型构建[J];水利信息化;2013年03期
7 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期
8 王兰富;;不同时间文档分类有妙招[J];电脑迷;2005年13期
9 陈频,王周敬;基于语义分析和外延匹配的文档分类方法[J];福建电脑;2005年10期
10 周水庚,关佶红,胡运发;无需词典支持和切词处理的中文文档分类[J];高技术通讯;2001年03期
中国重要会议论文全文数据库 前6条
1 雷景生;康耀红;;基于模糊相关的Web文档分类方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
2 胡江滔;周水庚;周傲英;;基于遗传算法的中文WEB文档分类研究[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
3 王自强;孙霞;钱旭;;基于信息瓶颈和拉普拉斯SVM的Web文档分类算法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年
4 陈峰;张欣;乐嘉锦;;EKS:XML文档上的关键字查询[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 苏祺;孙斌;;面向观点挖掘的产品评价特征词识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 李政泽;韩毅;周斌;贾焰;;微博用户分类的特征词权重优化及推荐策略[A];第27次全国计算机安全学术交流会论文集[C];2012年
中国硕士学位论文全文数据库 前10条
1 邹亚劼;基于OCR的文档图片检测与信息提取系统的研究[D];哈尔滨工业大学;2015年
2 王超;基于极限学习机的不确定XML文档分类的研究与实现[D];东北大学;2014年
3 毕鑫;基于极限学习机的XML文档分类的研究与实现[D];东北大学;2011年
4 赵文东;区域医疗服务平台医疗文档共享应用研究[D];北京邮电大学;2012年
5 张楠;一个概念聚合和文档资源分类的计算模型[D];中国科学院研究生院(计算技术研究所);2006年
6 田伟;XML文档分类方法的研究及其应用[D];大连理工大学;2009年
7 金鑫;基于朴素贝叶斯的文档级情感分析[D];大连理工大学;2013年
8 成少梅;利用IRF模型丰富文档的语义代表[D];武汉理工大学;2010年
9 徐生良;利用文档分类结构的信息检索技术[D];上海交通大学;2010年
10 高启鑫;ERP系统中文档传输子系统的设计与实现[D];南京大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026