收藏本站
收藏 | 投稿 | 论文排版

融合后验概率校准训练的文本分类算法

江静  陈渝  孙界平  琚生根  
【摘要】:用于文本表示的预训练语言模型在各种文本分类任务上实现了较高的准确率,但仍然存在以下问题:一方面,预训练语言模型在计算出所有类别的后验概率后选择后验概率最大的类别作为其最终分类结果,然而在很多场景下,后验概率的质量能比分类结果提供更多的可靠信息;另一方面,预训练语言模型的分类器在为语义相似的文本分配不同标签时会出现性能下降的情况。针对上述两个问题,提出一种后验概率校准结合负例监督的模型PosCalnegative。该模型端到端地在训练过程中动态地对预测概率和经验后验概率之间的差异进行惩罚,并在训练过程中利用带有不同标签的文本来实现对编码器的负例监督,从而为每个类别生成不同的特征向量表示。实验结果表明:PosCal-negative模型在两个中文母婴护理文本分类数据集MATINF-C-AGE和MATINF-C-TOPIC的分类准确率分别达到了91.55%和69.19%,相比ERNIE模型分别提高了1.13个百分点和2.53个百分点。

知网文化
【相似文献】
中国期刊全文数据库 前18条
1 高荣春;韩纪庆;张磊;;说话人识别中基于最大后验概率的通道补偿方法[J];通信学报;2009年03期
2 李良福;陈卫东;郑宝忠;;基于最大后验概率的人脸平移与旋转跟踪方法研究[J];应用光学;2011年01期
3 曹洁;朱小琴;王进花;吴迪;;一种基于最大后验概率的抗遮挡目标跟踪算法[J];小型微型计算机系统;2015年09期
4 闫河;刘加伶;张小川;;复小波域最大后验概率图像复原[J];计算机工程与应用;2009年26期
5 肖小玲;李腊元;张翔;;一种多类支持向量机概率建模新方法[J];计算机工程;2006年20期
6 郑永军;张连海;陈斌;;融合后验概率置信度的动态匹配词格检索[J];模式识别与人工智能;2015年02期
7 彭圆圆;刘本永;;基于后验概率的最低比特位隐写分析[J];科学技术与工程;2014年05期
8 冯祖仁;吕娜;李良福;;基于最大后验概率的图像匹配相似性指标研究[J];自动化学报;2007年01期
9 郑海红;曾平;;基于最大后验概率的逆半调改进方法[J];西安交通大学学报;2005年12期
10 周寿军;周智洋;邱建平;王文辉;尹洪男;;基于后验概率的呼吸信号预测[J];中国生物医学工程学报;2009年02期
11 索岩;程向羽;;基于贝叶斯后验概率和非合作博弈的推荐算法[J];计算机应用与软件;2022年03期
12 文志强;蔡自兴;;一种最大后验概率条件下的运动目标检测方法[J];小型微型计算机系统;2008年05期
13 胡学海;王厚军;古天祥;;基于最大后验概率的K/N规则研究[J];电子测量与仪器学报;2007年05期
14 苑智玮;黄树彩;熊志刚;胡立忠;;基于SVM后验概率的红外弱小目标检测[J];激光与红外;2016年06期
15 张喜涛;刘刚;周珩;;基于最大后验概率准则的红外图像NSCT域去噪方法[J];航空兵器;2016年02期
16 吕军;齐子年;方梦瑞;姚波;;基于后验概率SVM的水稻害虫识别方法研究[J];黑龙江八一农垦大学学报;2018年02期
17 席佳俊;金瑞楠;熊绪胜;;超分辨率重构最大后验概率算法介绍[J];信息通信;2012年05期
18 周朴雄;;基于最优权重的神经网络集成文本分类研究[J];计算机应用研究;2008年10期
中国重要会议论文全文数据库 前20条
1 严可;魏思;戴礼荣;刘庆峰;;基于音素相关后验概率变换的发音质量评价[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
2 孟莎;余鹏;Frank Seide;刘加;;基于后验概率词格的汉语自然对话语音索引[A];第九届全国人机语音通讯学术会议论文集[C];2007年
3 韦艳艳;李陶深;;一种改进的基于加权平均后验概率的1-层泛化方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 张臻;张艳宁;孙瑾秋;;基于匹配—消息传递的快速图匹配方法[A];第十四届中国体视学与图像分析学术会议论文集[C];2015年
5 韦艳艳;李陶深;;基于Stacking框架的学习机制研究[A];广西计算机学会2004年学术年会论文集[C];2004年
6 赵纪元;罗霄;;面向中图法的学术文献自动分类研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 张智军;沈昉;朱伟;;文本组织方式对介绍性文章搜索绩效的影响研究[A];中国人类工效学学会第六次学术交流会论文摘要汇编[C];2003年
10 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
11 罗长升;段建国;许洪波;郭莉;;基于拉推策略的文本分类增量学习研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
12 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
13 朱松豪;胡娟娟;孙伟;;基于非欧空间高阶统计的图像分类方法[A];第25届中国控制与决策会议论文集[C];2013年
14 王树西;白硕;姜吉发;;基于自由文本的模式推理[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
15 任函;何婷婷;;大规模在线文本的自动分类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
16 钟辉;黄洋;;基于版面特征的文档图像的文本定位方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
17 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
18 曾青青;杨尔弘;;突发事件文本的信息结构分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
19 刘健;张维明;;基于文本概念序列的非线性分析方法初探[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
20 曾青青;杨尔弘;;事件词驱动的文本事件信息结构初探[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前20条
1 闫琰;基于深度学习的文本表示与分类方法研究[D];北京科技大学;2016年
2 刘晓佩;自然场景文本信息提取关键技术研究[D];西安电子科技大学;2014年
3 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
4 宋胜利;文本语义表示及多层分类关键技术研究[D];西安电子科技大学;2012年
5 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
6 郭顺;词和文本的表示与文本分类的研究[D];大连理工大学;2020年
7 王中卿;基于文本信息的社会关系分析与研究[D];苏州大学;2016年
8 章东平;视频文本的提取[D];浙江大学;2006年
9 李岩;基于深度学习的短文本分析与计算方法研究[D];北京科技大学;2016年
10 李丽洁;视频中文本信息提取技术研究[D];哈尔滨工程大学;2012年
11 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年
12 尹芳;场景文本识别关键技术研究[D];哈尔滨理工大学;2012年
13 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
14 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
15 许剑峰;数字视频中的文本分割的研究[D];华南理工大学;2005年
16 李朝晖;基于视频文本检测和视频对象分割方法研究[D];华南理工大学;2004年
17 刘健;基于近似文本分析的意见挖掘[D];上海大学;2007年
18 荣欢;带有情感增强与情感融合的文本情感预测关键技术研究[D];南京信息工程大学;2020年
19 裴唯一;图像和视频中场景文本检测方法研究[D];北京科技大学;2018年
20 王振;数字视频中文本的提取方法研究[D];中国海洋大学;2011年
中国硕士学位论文全文数据库 前20条
1 张奇;后验概率正则化在远程监督关系抽取算法中的应用研究[D];浙江大学;2020年
2 严可;英文朗读题及复述题自动评测技术研究[D];中国科学技术大学;2009年
3 匡娇娇;基于贝叶斯模型的自然场景文本检测算法研究[D];武汉大学;2017年
4 黄恒;基于最大后验概率与子空间学习的二维人脸变换[D];浙江大学;2010年
5 刘真旭;基于内容的多媒体课件检索的研究与实现[D];上海交通大学;2009年
6 焦启航;对比关系段落文本生成方法研究[D];中国科学院大学(中国科学院文献情报中心);2020年
7 陈林;独立于语种的文本分类研究[D];重庆大学;2007年
8 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
9 李偲;基于朴素贝叶斯的文本分类研究及其在微博分类中的应用[D];北京理工大学;2015年
10 仲梓源;基于遗传与反馈的分布式文本分类研究[D];北京邮电大学;2014年
11 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
12 张俊丽;文本分类中的关键技术研究[D];华中师范大学;2008年
13 王珺瑶;面向微博文本的分类技术应用研究[D];广西大学;2015年
14 王雪飞;词间相关性对文本分类的影响[D];南京理工大学;2007年
15 牛肖潇;支持向量机及用于文本分类的研究[D];武汉理工大学;2006年
16 王兴;基于深度学习的涉案文本分析系统的设计与实现[D];中国人民公安大学;2021年
17 王培;面向中医知识的文本分类研究[D];华北理工大学;2021年
18 张华鑫;基于支持向量机的文本分类研究[D];西南科技大学;2016年
19 徐超;基于语言模型的文本分割研究[D];杭州电子科技大学;2015年
20 胡倩;自然场景下的文本定位[D];淮北师范大学;2014年
中国重要报纸全文数据库 前6条
1 ;BI和文本分析的强强联手[N];网络世界;2007年
2 ;用Word统计文本出现次数[N];江苏经济报;2004年
3 本报记者 马爱平;把文本变成画作,AI对艺术“下手”了[N];科技日报;2021年
4 记者 刘岁晗;计算机也能玩文本游戏[N];科技日报;2015年
5 重庆商报-上游新闻记者 严薇;厉害!这家在渝企业斩获两项全球第一[N];重庆商报;2021年
6 ;文本图形专家:TextDraw[N];电脑报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978