收藏本站
《计算机工程与应用》 2012年14期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

中文数据清洗研究综述

叶鸥  张璟  李军怀  
【摘要】:针对中文数据清洗研究进行了综述。阐明了全面数据质量管理与数据清洗之间的关系,给出数据清洗的定义及对象;介绍中文数据清洗问题产生的背景、国内外研究现状与研究热点,并简介其基本原理、模型及已有算法;着重阐明了中文数据清洗的方法;总结中文数据清洗研究的不足,并对中文数据清洗的研究及应用进行了展望。
【作者单位】西安理工大学计算机科学与技术学院;
【基金】:国家863计划重点项目(No.2007AA010305)
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前10条
1 方幼林 ,杨冬青 ,唐世渭 ,张卫华 ,余利波 ,付强;数据仓库中数据质量控制研究[J];计算机工程与应用;2003年13期
2 方幼林 ,杨冬青 ,唐世渭 ,张卫华 ,余利波 ,付强;数据转换过程的串行化方法[J];计算机工程与应用;2003年17期
3 俞荣华;田增平;周傲英;;一种检测多语言文本相似重复记录的综合方法[J];计算机科学;2002年01期
4 韩京宇;徐立臻;董逸生;;数据质量研究综述[J];计算机科学;2008年02期
5 郭志懋,俞荣华,田增平,周傲英;一个可扩展的数据清洗系统[J];计算机工程;2003年03期
6 刘波;杨路明;雷刚跃;邓云龙;;面向XML数据库的智能数据清洗策略[J];计算机工程;2008年16期
7 邱越峰,田增平,季文贇,周傲英;一种高效的检测相似重复记录的方法[J];计算机学报;2001年01期
8 刘奕群;张敏;马少平;;面向信息检索需要的网络数据清理研究[J];中文信息学报;2006年03期
9 刘嘉;张璟;李军怀;;一种基于Token匹配的中文数据清洗方法[J];计算机应用与软件;2009年11期
10 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期
【共引文献】
中国期刊全文数据库 前10条
1 曹建军;刁兴春;杜鹢;王芳潇;张潇毅;;基于蚁群特征选择的相似重复记录分类检测[J];兵工学报;2010年09期
2 王柯柯;崔贯勋;倪伟;苟光磊;;基于单元的快速的大数据集离群数据挖掘算法[J];重庆邮电大学学报(自然科学版);2010年05期
3 王恩德;刘畅;;面向对象技术在构建数据仓库中的应用研究[J];吉林大学学报(信息科学版);2007年05期
4 孙铁民;于杰;尚程;田大新;张丽华;;基于无监督学习的数据清洗算法[J];吉林大学学报(信息科学版);2008年06期
5 王元明;熊伟;;异常数据的检测方法[J];重庆工学院学报(自然科学版);2009年02期
6 王越;刘亚辉;徐传运;;基于距离和的孤立点用户意义分析算法及应用[J];重庆理工大学学报(自然科学版);2010年01期
7 李鑫;李军;丰继林;高方平;李忠;;面向相似重复记录检测的特征优选方法[J];传感器与微系统;2011年02期
8 徐杨;冯克忠;马亚明;;空间数据重复记录的清理方法研究[J];测绘科学;2008年06期
9 周宏广,周继承,刘长生;基于策略模式的缺损数据处理方法[J];长沙航空职业技术学院学报;2004年02期
10 张治元;;UML建模技术在高速公路收费系统软件开发中的研究及应用[J];长沙通信职业技术学院学报;2006年02期
中国重要会议论文全文数据库 前10条
1 刘琛玺;彭传薇;;提高医疗指标效能是新形势下医院管理的迫切需要[A];中国医院协会病案管理专业委员会第十七届学术会议论文集[C];2008年
2 郑华;;基于数据世系的数据质量评估框架[A];广西计算机学会2010年学术年会论文集[C];2010年
3 房伟;逄玉俊;路爽;;基于相异度系数和的孤立点挖掘应用与研究[A];2006“数学技术应用科学”[C];2006年
4 张勇斌;孙彦广;;提高钢铁企业数据仓库中数据质量的方法与探讨[A];冶金轧制过程自动化技术交流会论文集[C];2005年
5 陈堃;李心科;;基于可扩展数据清理框架的元数据的研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
6 于波;王宏鼎;唐世渭;童云海;;基于数据挖掘的数据质量分析研究[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
7 刘慧;蔡青;刘敏;;基于Vague集的数据质量综合评估方法[A];第十二届中国管理科学学术年会论文集[C];2010年
8 宋军;刘艺贺;;以基础信息共享支撑业务发展[A];寿命周期费用技术与协调发展[C];2010年
9 俞荣华;田增平;周傲英;;一种基于聚类的多语言文本相似记录检测算法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
10 郭景峰;周军锋;张大鹏;;一种改进的检测重复记录的方法[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国博士学位论文全文数据库 前10条
1 樊茗玥;网络调查数据质量控制研究[D];江苏大学;2011年
2 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
3 张崇明;无线传感器网络中的数据异常检测和数据质量问题研究[D];复旦大学;2010年
4 安爽;稳健模糊粗糙集模型研究[D];哈尔滨工业大学;2011年
5 王兵;黄土丘陵区流域生态恢复环境响应及其评价[D];中国科学院研究生院(教育部水土保持与生态环境研究中心);2011年
6 刘杰;面向数据集成的数据清理关键技术研究[D];中国科学技术大学;2010年
7 何建民;面向网络社区聆听客户声音方法研究[D];合肥工业大学;2010年
8 高遐;“军民结合”战略实施的制度环境与组织变革研究[D];电子科技大学;2011年
9 邵纪东;非线性过程监测中的数据降维及相关问题研究[D];浙江大学;2010年
10 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
中国硕士学位论文全文数据库 前10条
1 张芳宁;海洋数据仓库架构及接口规范的设计与实现[D];青岛大学;2011年
2 叶松涛;数据挖掘在无纸化考试系统中的应用与研究[D];电子科技大学;2011年
3 唐桥;在线数据整合技术的研究与设计[D];电子科技大学;2011年
4 王海婴;达梦数据交换平台(DMETL)执行过程改进[D];华中科技大学;2011年
5 胡佳平;公安信息系统中数据集成的[D];电子科技大学;2011年
6 张永刚;基于MDM技术的企业单一客户视图研究[D];华东理工大学;2012年
7 刘红宇;数据驱动的证券公司数据中心系统研究与实现[D];上海交通大学;2012年
8 张静;基于微博的网络热点发现模型及平台研究[D];华中科技大学;2010年
9 王巍;XML重复对象检测系统的设计与实现[D];华中科技大学;2011年
10 曹帅;数据挖掘在学生评价系统中的应用[D];北京理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 陈伟,丁秋林;一种XML相似重复数据的清理方法研究[J];北京航空航天大学学报;2004年09期
2 韩京宇;徐立臻;董逸生;;一种大数据量的相似记录检测方法[J];计算机研究与发展;2005年12期
3 俞荣华;田增平;周傲英;;一种检测多语言文本相似重复记录的综合方法[J];计算机科学;2002年01期
4 夏骄雄;徐俊;吴耿锋;;数据清理中同体不同源数据的数化算法研究[J];计算机工程;2007年01期
5 邱越峰,田增平,季文贇,周傲英;一种高效的检测相似重复记录的方法[J];计算机学报;2001年01期
6 郑仕辉,周傲英,张龙;XML文档的相似测度和结构索引研究[J];计算机学报;2003年09期
7 唐懿芳,钟达夫,严小卫;基于聚类模式的数据清洗技术[J];计算机应用;2004年05期
8 刘奕群;张敏;马少平;;面向信息检索需要的网络数据清理研究[J];中文信息学报;2006年03期
9 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期
10 王咏梅,陈家琪,耿玉良;一种可交互的数据清洗系统[J];计算机工程与设计;2005年04期
中国硕士学位论文全文数据库 前2条
1 周奕辛;数据清洗算法的研究与应用[D];青岛大学;2005年
2 周芝芬;基于数据仓库的数据清洗方法研究[D];东华大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 魏华;;关于金融报表系统数据集成问题的探究[J];中国市场;2011年36期
2 时贵英;文必龙;王志宝;;基于数据元的数据集成技术研究[J];科学技术与工程;2011年18期
3 郭大春;;信息化校园建设中跨平台数据集成的研究与实现[J];浙江万里学院学报;2011年04期
4 郭越;张明;叶爱兵;;基于ODI的高校异构数据集成的研究与实现[J];自动化技术与应用;2011年06期
5 孔琳俊;;数字化校园数据集成分析——以浙江财经学院为例[J];科技广场;2011年05期
6 钱波;王秀霞;;基于标准化的企业级质量协同管理方案研究与设计[J];电脑知识与技术;2011年21期
7 李小强;;信息战中数据访问和集成模型设计与实现[J];计算机与网络;2010年Z1期
8 李建勋;解建仓;张永进;;面向水利业务应用的数据集成及其服务模式[J];水利信息化;2011年04期
9 钟将;宋娟;;基于本体的异构数据集成框架[J];计算机工程;2011年14期
10 王付坤;;矿井综合信息集成系统的设计[J];工矿自动化;2011年08期
中国重要会议论文全文数据库 前2条
1 魏亮;周国祥;;管理信息系统设计模式的研究与应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
2 刘高军;姚文猛;;虚拟数据库技术在传输网管中的应用研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
中国重要报纸全文数据库 前10条
1 艾文;增强数据集成能力[N];中国计算机报;2003年
2 于翔;集成即服务:面向云的数据集成[N];网络世界;2009年
3 ;集成异构数据源[N];网络世界;2006年
4 于翔;谁碾碎了数据?[N];网络世界;2007年
5 邹大斌;发挥数据的最大价值[N];计算机世界;2007年
6 ;SaaS需要数据集成[N];网络世界;2007年
7 陈友梅;数据集成 永中Office之本[N];中国计算机报;2002年
8 姜学军(山东省医药卫生科技信息研究所) 程永(浪潮商用系统公司;山东省地税系统的数据集成[N];电脑商报;2005年
9 李稚;“集成”的困惑[N];计算机世界;2002年
10 于翔 王翔;收复数据孤岛[N];网络世界;2007年
中国博士学位论文全文数据库 前10条
1 王欣;数据集成技术若干问题的研究[D];上海交通大学;2010年
2 陈义;面向数据集成的数据复制和查询优化[D];中国科学院研究生院(软件研究所);2004年
3 周剑峰;城市交通共用信息平台数据处理技术研究[D];吉林大学;2005年
4 李效东;自治异构数据源的集成查询处理[D];中国科学院研究生院(软件研究所);2002年
5 朱勇;川渝地区输气管道管控一体化与数据集成应用研究[D];西南石油大学;2009年
6 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
7 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
8 林剑柠;仿真网格环境下资源管理若干关键技术研究[D];南京理工大学;2006年
9 牟乃夏;城市管网地理信息系统的数据模型与数据集成机理研究[D];中国地质大学;2006年
10 刘杰;面向数据集成的数据清理关键技术研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 缪建明;集散控制系统的数据集成的研究与应用[D];福州大学;2003年
2 李凯;面向SCM数据集成的DW解决方案研究[D];大连理工大学;2006年
3 文静;数据集成中数据冲突检测和解决方法研究[D];山东大学;2010年
4 周艳芳;基于XML的ERP和电子商务数据集成[D];四川大学;2004年
5 袁红;保险公司数据集成关键技术的研究及应用[D];重庆大学;2004年
6 王宇鸽;电子政务中异构数据资源集成技术的应用研究[D];北方工业大学;2006年
7 刘发军;异构数据集成系统中基于CORBA的事务处理研究[D];大连海事大学;2005年
8 王艳华;基于中间件技术的分布式数据集成研究与实现[D];武汉理工大学;2006年
9 高玉军;XML在数据集成中的应用研究[D];曲阜师范大学;2006年
10 麻广伟;基于CWM的元数据集成的研究与应用[D];中南大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026