收藏本站
《长春理工大学学报(自然科学版)》 2020年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于Huffman-LDA和Weight-Word2vec的文本表示模型研究

黄春雨  胡迪  邱宁佳  孙爽滋  
【摘要】:LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本表示模型是基于主题向量和文档向量计算新的特征表示文本,但直接计算所得的稀疏主题特征与基于词向量的文档特征的距离,缺乏特征的一致性。本文提出了Huffman-LDA和Weight-Word2vec的文本表示模型,首先,使用LDA模型得到主题向量后构建主题哈夫曼树,再运用梯度上升方法更新主题向量,新的主题向量包含不同主题词之间的关系,求得的特征不再具有稀疏性;然后,使用LDA主题向量与主题矩阵中词的主题特性计算词权重更新Word2vec的词向量,使得词向量包含主题词之间的关系进而表示文档向量;最后,通过主题向量和文档向量的欧式距离得到具有强分类特征的文本表示。实验结果表明,该方法可获得更强的文本表示特征,有效提高文档分类精度。

知网文化
【相似文献】
中国期刊全文数据库 前16条
1 孙飞;郭嘉丰;兰艳艳;程学旗;;面向文本分类的有监督显式语义表示[J];数据采集与处理;2017年03期
2 闫华礼;;采文本的“小姑娘”[J];电脑爱好者;2008年21期
3 王立荣;;Word2vec-CNN-Bilstm短文本情感分类[J];福建电脑;2020年01期
4 杨开漠;吴明芬;陈涛;;广义文本情感分析综述[J];计算机应用;2019年S2期
5 王倩;曾金;刘家伟;戚越;;基于深度学习的学术文本段落结构功能识别研究[J];情报科学;2020年03期
6 徐红;;浅析手机取证中的文本分类[J];科技与创新;2019年22期
7 丁建立;苏现帅;;基于组合式深度学习网络的混合文本情感分类[J];计算机工程与设计;2019年11期
8 李东勤;王芳;周万怀;;自然场景图像中的文本检测方法研究[J];重庆科技学院学报(自然科学版);2016年06期
9 王耀华;李舟军;何跃鹰;巢文涵;周建设;;基于文本语义离散度的自动作文评分关键技术研究[J];中文信息学报;2016年06期
10 朱宇;;基于社交文本的人格研究综述[J];现代计算机(专业版);2017年09期
11 郭红梅;袁国华;胡正银;;基于概念向量的文本语义相似度方法探索[J];数字图书馆论坛;2017年06期
12 龚垒;;基于特征类别均衡的文本分类分类方法[J];电子世界;2017年13期
13 王郝日钦;;基于自动编码器的文本分类实现[J];中国高新区;2017年16期
14 罗程多;吴晓蕊;薛凯;杨飞;王保录;;社交文本规范化研究综述[J];网络新媒体技术;2017年05期
15 ;文本文件 合并分割走另类[J];电脑爱好者;2016年09期
16 程南昌;侯敏;滕永林;;基于文本特征的短文本倾向性分析研究[J];中文信息学报;2015年02期
中国重要会议论文全文数据库 前10条
1 张智军;沈昉;朱伟;;文本组织方式对介绍性文章搜索绩效的影响研究[A];中国人类工效学学会第六次学术交流会论文摘要汇编[C];2003年
2 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
6 王树西;白硕;姜吉发;;基于自由文本的模式推理[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 罗长升;段建国;许洪波;郭莉;;基于拉推策略的文本分类增量学习研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 任函;何婷婷;;大规模在线文本的自动分类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 钟辉;黄洋;;基于版面特征的文档图像的文本定位方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
10 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
中国重要报纸全文数据库 前10条
1 刘向晨;Word中的虚拟文本[N];中国电脑教育报;2003年
2 飞鱼;巧用COPY命令加密文本文件[N];江苏经济报;2003年
3 飞鱼;巧用COPY命令加密文本文件[N];中国电脑教育报;2003年
4 ;BI和文本分析的强强联手[N];网络世界;2007年
5 浙江省绍兴县职业教育中心 何永胜;让文本发声[N];中国电脑教育报;2004年
6 福建 陈桂鑫;让文本文件更精彩[N];电脑报;2002年
7 朱宝贵;Authorware 插入文本的四种方法[N];中国电脑教育报;2004年
8 宋志明;文本也能转成MP3[N];中国电脑教育报;2004年
9 李永波;实现滚动文本一例[N];中国电脑教育报;2004年
10 广东 魔岩;做一个English文本朗读机[N];电脑报;2002年
中国博士学位论文全文数据库 前10条
1 刘晓佩;自然场景文本信息提取关键技术研究[D];西安电子科技大学;2014年
2 闫琰;基于深度学习的文本表示与分类方法研究[D];北京科技大学;2016年
3 王中卿;基于文本信息的社会关系分析与研究[D];苏州大学;2016年
4 李岩;基于深度学习的短文本分析与计算方法研究[D];北京科技大学;2016年
5 李丽洁;视频中文本信息提取技术研究[D];哈尔滨工程大学;2012年
6 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年
7 尹芳;场景文本识别关键技术研究[D];哈尔滨理工大学;2012年
8 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
9 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
10 裴唯一;图像和视频中场景文本检测方法研究[D];北京科技大学;2018年
中国硕士学位论文全文数据库 前10条
1 王珺瑶;面向微博文本的分类技术应用研究[D];广西大学;2015年
2 俞飞;基于网络信息文本倾向性分析的领域应用研究[D];华东师范大学;2011年
3 汪海兴;高清视频文本的提取与识别[D];哈尔滨工程大学;2015年
4 高阳;表情符号对中文微博文本情感倾向的影响研究[D];辽宁师范大学;2016年
5 蔡志威;基于概念的短文本分类[D];华南理工大学;2016年
6 宋欢欢;基于文本多特征值的功率谱分析方法的研究[D];济南大学;2014年
7 仲梓源;基于遗传与反馈的分布式文本分类研究[D];北京邮电大学;2014年
8 胡倩;自然场景下的文本定位[D];淮北师范大学;2014年
9 马桂香;评论文本的多方面观点挖掘研究[D];北京交通大学;2013年
10 吴潇;面向复杂背景的视频文本定位研究[D];湖南大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978