收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于LDA特征扩展的短文本分类

吕超镇  姬东鸿  吴飞飞  
【摘要】:针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,最后利用SVM分类方法进行短文本的分类。实验表明,该方法在性能上与传统的直接使用VSM模型来表示短文本特征的方法相比,对不同类别的短文本进行分类,都有不同程度的提高与改进,对于短文本进行补充LDA特征信息的方法是切实可行的。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 于洪志;杨博;关白;;藏文文本规范化技术的研究与实践[J];西北民族大学学报(自然科学版);2006年01期
2 钱荣贵;读者接受与编辑选择[J];南通师范学院学报(哲学社会科学版);2001年04期
3 吕兴宇;文本探索下的梅城故事[J];新闻出版交流;2001年06期
4 来亮;钱屹;;文本情感分析综述[J];计算机光盘软件与应用;2012年18期
5 克里斯蒂昂·雅各布,陆象淦;从书籍到文本——文献学比较史刍议[J];第欧根尼;2003年01期
6 张文静;雷蕾;沈丽娟;;媒介文本中再现对象的刻板形象的符号学分析[J];科协论坛(下半月);2008年04期
7 王素格;李德玉;魏英杰;;基于赋权粗糙隶属度的文本情感分类方法[J];计算机研究与发展;2011年05期
8 何锡点;李江林;李献伟;克潇;;文本典型票的操作序列解析算法[J];电力系统保护与控制;2010年12期
9 崔永锋;从CAJ等文件中提取全文本的方法[J];大众科技;2005年09期
10 ;文本的历史性与历史的文本性[J];外国文学评论;1996年02期
11 胡易容;;“新闻经典”抑或“经典新闻”——在“全文本”中构建“新闻经典”[J];中国出版;2011年12期
12 冯叙;;视觉文化中的城市文本及其阅读[J];新建筑;2009年03期
13 谢景政,肖映铭;用Authorware制作课件添加文本的技巧[J];中小学电教;2005年05期
14 李静;李贺;;基于文本与视觉特征聚合的图像排序学习模型[J];小型微型计算机系统;2011年11期
15 曾辉;Stylistic Analysis of an Unline Computer Advertisement[J];成都教育学院学报;2002年01期
16 王爱胜;“图形化表示”,是如何“化”来的[J];信息技术教育;2005年04期
17 吴哲,石军;上装下载方法种种[J];山东电子;2001年03期
18 李园;;视差滚动在网页设计中的应用研究[J];设计;2014年04期
19 张蕾;;媒介文本的符码呈现与受众的差异化意义生产——源自实证调查的《蜗居》受众分析[J];国际新闻界;2010年06期
20 ;[J];;年期
中国重要会议论文全文数据库 前1条
1 沈冬芬;;读钟桂松先生《茅盾的青少年时代》图文本之“图”[A];茅盾研究(第13辑)[C];2014年
中国博士学位论文全文数据库 前2条
1 胡志颖;文学彼岸性研究[D];暨南大学;2002年
2 张冬梅;文本情感分类及观点摘要关键问题研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 俞飞;基于网络信息文本倾向性分析的领域应用研究[D];华东师范大学;2011年
2 张彦博;文本情感分类的研究[D];北京交通大学;2010年
3 赵超;视频检索中字幕文本的提取研究[D];上海交通大学;2009年
4 周德志;基于复杂网络的文本社区构建研究[D];西安电子科技大学;2014年
5 李娜;基于本体的文本知识修正与获取[D];中国石油大学;2009年
6 郑晨;产品介绍类文本翻译技巧探析[D];上海外国语大学;2014年
7 王会珍;面向话题追踪的特征选取与文本表示技术的研究[D];东北大学;2005年
8 张燕梅;历史、文本与同心圆[D];陕西师范大学;2004年
9 董红妮;基于粒度的文本案例检索算法及应用研究[D];西北大学;2012年
10 兰瑞;基于文本分类的SNS社区发布订阅技术研究[D];华中科技大学;2012年
中国重要报纸全文数据库 前10条
1 刘戈;文本的价值与意义[N];文艺报;2001年
2 本报记者 刘颖;营销文本:让自家图书“跳”出来[N];中国图书商报;2004年
3 安徽 高伟;拒绝“附件大小限制”[N];电脑报;2004年
4 傅书华;“文本的历史”与“历史的文本”[N];山西日报;2005年
5 任进;核心问题突出 文本形式创新[N];法制日报;2004年
6 记者 周旭亮 通讯员 朱斌;“淡出”文本,有所作为[N];淮安日报;2013年
7 西贝;将Excel的文本数字转换成数字[N];中国电脑教育报;2003年
8 王余光 北京大学信息管理系教授 汪琴 北京大学信息管理系博士;1995-2004世纪之交读者阅读习惯的变化[N];中国图书商报;2005年
9 徐爽 法国巴黎狄德罗大学东亚语文学院;书文化走向屏幕文化[N];中国社会科学报;2012年
10 李杨;解读经典的方式[N];中华读书报;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978