收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于语义的档案数据智能分类方法研究

霍光煜  张勇  孙艳丰  尹宝才  
【摘要】:随着信息技术的高速发展,各种数字档案数据量出现了爆炸式的增长。如何合理地挖掘分析档案数据,提升对新收录档案智能管理的效果已成为一个亟需解决的问题。现有的档案数据分类方法是面向管理需求的人工分类,这种人工分类的方式效率低下,忽略了档案固有的内容信息。此外,对于档案信息发现和利用来说,需进一步挖掘分析档案数据内容之间的关联性。面向档案智能管理的需求,从档案数据的文本内容角度出发,对人工分类的档案进行进一步分析。采用LDA模型提取文档的主题特征向量,进而用K-means算法对档案的主题特征进行聚类,得到档案间的关联。针对新收录档案数据的分类问题,采用现有档案数据,有监督的训练FastText深度学习模型,用训练完成的模型对新收录的档案数据进行全自动分类。在数据集上测试的结果表明,所提聚类方法在文档数据集的准确率相较于传统的基于TF-IDF特征的聚类算法提升6%,基于FastText的档案分类方法准确率超过96%,达到了代替手工分类的级别,验证了该方法的有效性和实用性。

知网文化
【相似文献】
中国期刊全文数据库 前18条
1 胡晓频;;“互联网+”时代档案数据管理面临的机遇与挑战[J];计算机产品与流通;2019年02期
2 刘永;庞宇飞;荆欣;;档案数据化之浅析:档案数据大脑的构建[J];档案管理;2019年03期
3 梁雯;;大数据视域下档案数据管理的创新策略研究[J];科学大众(科学教育);2018年01期
4 王向女;袁倩;;美梦还是陷阱?——论数据科学背景下的档案数据管理[J];档案与建设;2019年09期
5 韩峰;;试论全生命周期环境下档案数据治理的连续性[J];档案;2020年10期
6 赵生辉;胡莹;;档案数据基因系统:概念、机理与实践[J];档案学研究;2021年01期
7 薛静文;;数字档案馆多平台档案数据同步管理研究[J];现代经济信息;2019年23期
8 王向女;袁倩;;美梦还是陷阱?——论数据科学背景下的档案数据管理[J];中国档案;2020年02期
9 展倩慧;;协同治理视域下档案数据开发模式探究[J];档案与建设;2020年04期
10 肖雪;;企业设计体系核心能力提升作用模型分析——基于档案数据管理视角[J];现代商业;2020年30期
11 陈展;;档案数据开放推进路径探略[J];浙江档案;2019年01期
12 丁家友;;大数据背景下的档案数据保全探析[J];档案学通讯;2019年01期
13 孔祥宁;;大数据视域下档案数据管理的实践创新模型研究[J];办公室业务;2019年12期
14 顾睿涵;;大数据背景下档案数据管理探析[J];兰台内外;2019年30期
15 屠健;;我国档案数据开放的发展策略研究[J];办公室业务;2018年11期
16 崔勇;;电子档案数据永久存储的安全保障研究[J];电子制作;2015年03期
17 杨剑云;;电子档案数据恢复方法与策略探析[J];云南档案;2015年07期
18 石剑文;;电子档案数据永久存储的安全保障研究[J];辽宁科技学院学报;2014年02期
中国重要会议论文全文数据库 前16条
1 夏巧利;;大数据时代下如何做好陕西气象档案数据的管理[A];陕西省通信学会2016年学术年会论文集[C];2016年
2 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 张越今;丁丁;;敏感话题发现中的增量型文本聚类模型[A];第30次全国计算机安全学术交流会论文集[C];2015年
4 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年
5 张智军;沈昉;朱伟;;文本组织方式对介绍性文章搜索绩效的影响研究[A];中国人类工效学学会第六次学术交流会论文摘要汇编[C];2003年
6 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
9 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 王树西;白硕;姜吉发;;基于自由文本的模式推理[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
11 罗长升;段建国;许洪波;郭莉;;基于拉推策略的文本分类增量学习研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
12 任函;何婷婷;;大规模在线文本的自动分类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
13 钟辉;黄洋;;基于版面特征的文档图像的文本定位方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
14 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
15 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
16 曾青青;杨尔弘;;突发事件文本的信息结构分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前20条
1 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
2 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
3 刘晓佩;自然场景文本信息提取关键技术研究[D];西安电子科技大学;2014年
4 魏超;局部光滑保持流形正则化自编码文本表示方法研究[D];北京理工大学;2017年
5 闫琰;基于深度学习的文本表示与分类方法研究[D];北京科技大学;2016年
6 王中卿;基于文本信息的社会关系分析与研究[D];苏州大学;2016年
7 章东平;视频文本的提取[D];浙江大学;2006年
8 李岩;基于深度学习的短文本分析与计算方法研究[D];北京科技大学;2016年
9 李丽洁;视频中文本信息提取技术研究[D];哈尔滨工程大学;2012年
10 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年
11 尹芳;场景文本识别关键技术研究[D];哈尔滨理工大学;2012年
12 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
13 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
14 许剑峰;数字视频中的文本分割的研究[D];华南理工大学;2005年
15 李朝晖;基于视频文本检测和视频对象分割方法研究[D];华南理工大学;2004年
16 刘健;基于近似文本分析的意见挖掘[D];上海大学;2007年
17 裴唯一;图像和视频中场景文本检测方法研究[D];北京科技大学;2018年
18 王振;数字视频中文本的提取方法研究[D];中国海洋大学;2011年
19 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
20 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
中国硕士学位论文全文数据库 前20条
1 秦子萱;基于数据架构的农用地档案数据注册引擎的研究与实现[D];成都大学;2020年
2 黄南凤;档案数据备份研究[D];苏州大学;2009年
3 尉朋朋;文本聚类及其在文本倾向性分析中的应用研究[D];北方工业大学;2017年
4 金瓯;长文本辅助短文本的知识迁移聚类方法[D];上海交通大学;2012年
5 邵洪雨;短文本聚类及聚类结果描述方法研究[D];大连理工大学;2014年
6 许君宁;基于知网语义相似度的中文文本聚类方法研究[D];西安电子科技大学;2010年
7 刘德宝;数据空间内基于内容的文本文件管理策略研究[D];东北大学;2010年
8 戴景波;小文本聚类技术及其在电子邮件中的应用研究[D];东北大学;2011年
9 周昭涛;文本聚类分析效果评价及文本表示研究[D];中国科学院研究生院(计算技术研究所);2005年
10 范骋清;面向短消息文本的聚类技术研究与应用[D];西南财经大学;2011年
11 竺佳芳;顾及时空主题特征的分布式灾害舆情信息获取与分析方法研究[D];浙江大学;2019年
12 司玮辰;字符特征和主题特征相结合的文本分类模型的研究及应用[D];华中科技大学;2019年
13 李家乐;基于深度学习的问题回答技术研究[D];北方工业大学;2019年
14 曾庆旺;基于ResearchGate的科研合作者推荐研究与实现[D];北京交通大学;2018年
15 郑灶旭;基于主题特征和深度学习的情感分析算法研究[D];华南理工大学;2018年
16 徐浙君;基于遗传的文本软聚类研究与实现[D];重庆大学;2006年
17 邵明来;中文文本聚类关键技术研究[D];广西大学;2015年
18 淳朝阳;面向文本的协同聚类集成研究[D];西南交通大学;2014年
19 朱德超;基于词嵌入文本聚类技术的研究与实现[D];东华大学;2016年
20 邬启为;基于向量空间的文本聚类方法与实现[D];北京交通大学;2014年
中国重要报纸全文数据库 前11条
1 吴卫华 林伟宏;浙江档案数据质检系统填补国内空白[N];中国档案报;2009年
2 刘向晨;Word中的虚拟文本[N];中国电脑教育报;2003年
3 飞鱼;巧用COPY命令加密文本文件[N];江苏经济报;2003年
4 飞鱼;巧用COPY命令加密文本文件[N];中国电脑教育报;2003年
5 ;BI和文本分析的强强联手[N];网络世界;2007年
6 浙江省绍兴县职业教育中心 何永胜;让文本发声[N];中国电脑教育报;2004年
7 福建 陈桂鑫;让文本文件更精彩[N];电脑报;2002年
8 朱宝贵;Authorware 插入文本的四种方法[N];中国电脑教育报;2004年
9 宋志明;文本也能转成MP3[N];中国电脑教育报;2004年
10 李永波;实现滚动文本一例[N];中国电脑教育报;2004年
11 广东 魔岩;做一个English文本朗读机[N];电脑报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978