《管理工程学报》2002年01期 加入收藏    获取最新 
 数据开采的数据质量问题
 赵卫东;李旗号
   数据质量是影响数据开采效果的重要因素 ,这个问题并未受到人们的充分重视。本文针对数据质量在数据开采中的地位 ,给出了数据质量评价的几个主要尺度。并且结合统计学和机器学习的理论 ,分析了解决数据质量的方法 ,强调提高数据质量的出发点在于控制数据源的质量。
【作者单位】:东南大学经管学院 南京210096 (赵卫东);合肥工业大学 合肥230009(李旗号)
【关键词】:数据开采;数据质量;数据仓库
【基金】:江苏省自然科学基金资助项目 ( 76 0 5 730 0 72 )
【分类号】:F222
【DOI】:cnki:ISSN:1004-6062.0.2002-01-006
【正文快照】:
  随着管理信息技术的广泛使用 ,许多部门都积累了大量的数据。这些数据从不同的侧面反映企业的基本活动。面对海量的数据 ,高层决策者却感到信息贫乏。原因是决策者感兴趣的信息是隐藏在数据中的。因此从导构、分布的数据源—数据仓库中挖掘有用的模式 ,成为辅助决策 ,提高竞争
 
 推荐 下载CAJ全文           下载PDF全文
 CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式
 Research on Data Quality for Data Mining
 By ZHAO Wei-dong (College of Economics and Management;East-Sowth University;Nanjing 210018); LI Qi-hao(Hefei University of Technology;Hefei 230009)
  It is a widely accepted maxim that decision are no better than data on which they are based. Data quality is vital to data mining,which have been called researchers' attention. In relation to the importance of data quality for data mining,some data quality indicators are analyzed in detail and the improvement methods of data quality are analysed using statistics and machine learning theory etc. in this paper. To solve the problem of data quality,it is a start to control the quality of data sources where data are choosed to warehouse.
【Keyword】:data mining;data quality;data warehouse
 【参考文献】 共(5)篇 
 中国期刊全文数据库找到 1 条
 
1王珏,王任,苗夺谦,郭萌,阮永韶,袁小红,赵凯; 基于Rough Set理论的“数据浓缩” [J]; 计算机学报; 1998年05期
 西文参考文献找到 4 条
 
1David Kaplan, Ramayya, Rema Padman et al; Accessing Data Quality in Accounting Information Systems [M];Communition of the ACM; 1998年
2Marzena Kryszkiewicz; Rough set approach to incomplete information systems [M];Information Sciences; 1998年
3Ken Orr; Data quality and systems theory [M];Communition of the ACM; 1998年
4Donald P Ballou, Giri Kumar Tayi; Enhancing Data Quality in Data Warehouse environments [M];Communition of the ACM; 1999年
 【引证文献】 共(9)篇 
 中国优秀硕士学位论文全文数据库找到 4 条
 
1李江峰; 基于联机分析和数据挖掘的决策支持系统的研究与应用 [D];浙江工业大学; 2006年
2殷俊; 基于ETL技术的电信业数据仓库质量控制模型的研究及应用 [D];上海交通大学; 2007年
3钟衍凡; 基于ABLE的机器学习系统的研究与改进 [D];暨南大学; 2007年
4熊霞; 数据仓库中数据质量控制问题研究 [D];武汉大学; 2004年
 中国博士学位论文全文数据库找到 3 条
 
1刘刚; 基于智能Agent的动态协作任务求解机制及应用研究 [D];铁道部科学研究院; 2006年
2许涛; 电力系统安全稳定的智能挖掘 [D];华北电力大学(北京); 2004年
3李万庆; 基于智能优化算法的施工项目风险预测与网络计划优化研究 [D];天津大学; 2004年
 中国期刊全文数据库找到 1 条
 
1吴喜之,闫洁; 数据分析中的数据质量识别 [J]; 统计与信息论坛; 2006年06期
 中国重要会议论文全文数据库找到 1 条
 
1李英,李武,王浣尘; 基于Agent的空间数据挖掘系统模型 [A];2003中国控制与决策学术年会论文集 [C]; 2003年
 【共引文献】 共(297)篇 
 中国优秀硕士学位论文全文数据库找到 10 条
 
1仲维国; 信息系统中粗糙集理论若干问题的研究 [D];南京理工大学; 2002年
2崔华丽; 基于粗神经网络的数据挖掘方法及其应用 [D];西安建筑科技大学; 2004年
3李楠; 基于改进随机决策树的入侵检测方法研究 [D];合肥工业大学; 2007年
4李畅; 基于统计的分类算法及其在潜在客户识别中的应用研究 [D];湖南大学; 2004年
5李爱国; 基于粗糙集的智能控制技术在电力传动中的应用研究 [D];大庆石油学院; 2007年
6张新霞; 基于统计相关性的有趣关联规则的挖掘 [D];武汉科技大学; 2002年
7张力木; 基于粗糙集的有序问题及数据约简的研究 [D];吉林大学; 2006年
8陈玉明; 基于信息粒与粒计算理论的数据约简研究 [D];南昌大学; 2005年
9张涛; 数据挖掘在干部住房保障网络管理系统中的应用 [D];四川大学; 2006年
10吴越; 基于粗糙集数据分析的商业辅助决策系统的应用研究 [D];苏州大学; 2006年
 中国博士学位论文全文数据库找到 10 条
 
1张静; 基于粗糙集理论的数据挖掘算法研究 [D];西北工业大学; 2006年
2王晓晔; 时间序列数据挖掘中相似性和趋势预测的研究 [D];天津大学; 2003年
3刘永阔; 核动力装置故障诊断智能技术的研究 [D];哈尔滨工程大学; 2006年
4李力; 数据挖掘方法研究及其在中药复方配伍分析中的应用 [D];西南交通大学; 2003年
5王庆; RH-KTB真空系统智能故障诊断 [D];东北大学; 2004年
6王珏; 粗糙集理论及其应用研究 [D];西安电子科技大学; 2005年
7孙蕾; 医学图像智能挖掘关键技术研究 [D];西北大学; 2005年
8赛英; 粗糙集扩展模型及其在数据挖掘中的应用研究 [D];中国人民解放军国防科学技术大学; 2002年
9何离庆; 网络环境下的智能化农业信息平台研究 [D];重庆大学; 2002年
10苏健; 基于粗糙集的数据挖掘与决策支持方法研究 [D];浙江大学; 2002年
 中国期刊全文数据库找到 10 条
 
1李国和,赵沁平; 信息系统的一种分块特征选取方法 [J]; 北京航空航天大学学报; 2003年03期
2李龙澍,程慧霞,卢冰原; 基于凸Rough集的数据约简和规则发现研究 [J]; 东南大学学报(自然科学版); 2002年02期
3霍颖瑜; PCA和粗糙集的联合自寻优特征选择在人脸识别中的应用 [J]; 佛山科学技术学院学报(自然科学版); 2007年01期
4许少华,赵万平,廖太平,鲁笛,李欣; 一类模式识别及其在地层对比中的应用 [J]; 大庆石油学院学报; 2002年01期
5叶东毅; 基于粗糙隶属函数的规则组合可信度计算与推理 [J]; 福州大学学报(自然科学版); 2002年03期
6缑锦,叶东毅; 基于概念格的求所有绝对属性约简的一个算法 [J]; 福州大学学报(自然科学版); 2002年03期
7杨萍,杨明; 基于VPRS的重要属性评价方法研究 [J]; 安徽工程科技学院学报(自然科学版); 2003年01期
8姜涛,韩富春,范卫星; 基于粗糙集理论的架空输电线路运行状态评估 [J]; 电气技术; 2007年04期
9杨明,孙志挥; 改进的差别矩阵及其求核方法 [J]; 复旦学报(自然科学版); 2004年05期
10郑丽英,王庆荣,刘丽艳; 面向属性的粗集数据挖掘方法研究 [J]; 兰州理工大学学报; 2005年02期
 中国重要会议论文全文数据库找到 6 条
 
1马翠,刘琼荪,周先东; 基于相对区分矩阵的遗传模拟退火属性约简算法 [A];第九届中国青年信息与管理学者大会论文集 [C]; 2007年
2王丹,吴孟达,刘银山; 属性约简的一种简单算法 [A];第12届全国模糊系统与模糊数学学术年会论文集 [C]; 2004年
3张铮,苏旭武,张道德,陈学锋; 装载机故障诊断属性约简算法 [A];湖北省机械工程学会青年分会2006年年会暨第2届机械学院院长(系主任)会议论文集(下) [C]; 2006年
4杨善林,刘业政,马溪骏; 基于β-δ_0粗糙集模型的属性约简算法 [A];2003年中国管理科学学术会议论文集 [C]; 2003年
5李仁璞,黄道,高茂庭; 一种快速的决策规则抽取方法 [A];2005中国控制与决策学术年会论文集(下) [C]; 2005年
6游凤荷,游汛; 粗糙集的约简算法在涡流传感器设计中的应用 [A];2007'湖北·武汉NDT学术年会论文集 [C]; 2007年
 【同被引文献】 共(178)篇 
 中国期刊全文数据库找到 10 条
 
1李万庆,李文华; 施工项目管理规划中的模糊排序问题 [J]; 电力建设; 1999年05期
2杜永明; 数据仓库中数据质量若干问题的研究 [J]; 福建电脑; 2003年01期
3吴树畅,郭云; 关于不确定性与风险的思考 [J]; 财会月刊; 2004年17期
4徐雪峰,吴根秀; 粗糙集理论中决策表属性约简的信息表示 [J]; 江西师范大学学报(自然科学版); 2001年02期
5甘德强,胡朝阳,沈沉; 美国新英格兰备用电力市场设计和优化新模型 [J]; 电力系统自动化; 2003年02期
6管霖,曹绍杰; 基于人工智能的大系统分层在线暂态稳定评估 [J]; 电力系统自动化; 2000年02期
7顾雪平,曹绍杰,张文勤; 人工神经网络和短时仿真结合的暂态安全评估事故筛选方法 [J]; 电力系统自动化; 1999年08期
8于之虹,郭志忠; 基于数据挖掘理论的电力系统暂态稳定评估 [J]; 电力系统自动化; 2003年08期
9计国君; 数据仓库技术的数据存贮与检索 [J]; 东南大学学报(哲学社会科学版); 2002年S1期
10刘建成,蒋新华,吴今培; 一种知识推理规则归纳系统的实现 [J]; 系统工程; 2003年03期
 西文参考文献找到 10 条
 
1Koperski K, Han J; Discovery of spatial association rules in geographic information databases [M];; 1995年
2Han J,,Kamb rM,Data M; Concepts and Techniques[M] [M];; 2001年
3Franklin S, Gaesser A; Is it an agent, or just a program? A taxonomy for autonomous agents[A] [M];Proc of 3rd Int Workshop on Agent Theories, Architactures and Languages[C]; 1996年
4Analia Lourenco, Joaqium Goncalves, Orlando Belo; Agent-based knowledge extraction services inside enterprise data warehousing systems environments [A] [M];Proc of 12th Int Workshop on Database and Expert Systems Appl[C]; 2001年
5Lenzmann B, Wahsmuth I; Contract-net-based learning in a user-adaptive interface agency [M];Lecture Notes in Artificial Intelligence; 年
6Wooldridge MJ, Jennings N R; Intelligent agent: theory and practice [J] [M];Knowledge Engineering Review; 1995年
7Sandip Sen; Report on IJCA-95 Workshop on Adaptation and Learning in Multi-Agent Systems [M];http://euler.mcs.utulsa.edu/~sandip/wsreport.html; 年
8Nagendra Prasad, Maram V; Learning Situation-Specific Control in Multiagent Systems [M];; 1997年
9 [M];http://www.ics.uci.edu/~mlearn/MLRepository.html; 年
10 [M];http://www.alphaworks.ibm.com/tech/able; 年
 【二级参考文献】 共(3)篇 
 西文参考文献找到 3 条
 
1Hu X H, Cercone N; Learning in relational databases: a Rough Set approach [M];Computational Intelligence; 1995年
2Jelonek J et al; Rough Set reduction of attributes and their domains for neural networks [M];Computational Intelligence; 1995年
3Nosofsky M,Palmeri J,mcKinley C; Rule-plus-exception model of classification learning [M];Psychological Reuiew; 1994年
 【二级引证文献】 共(14)篇 
 中国优秀硕士学位论文全文数据库找到 7 条
 
1方怡; 电力系统暂态稳定评估的关联规则挖掘 [D];西南交通大学; 2007年
2向丽萍; 电力系统暂态稳定评估中的特征选取 [D];西南交通大学; 2007年
3张松富; 智能数据维护 [D];广东工业大学; 2007年
4廖定安; 基于医药连锁销售的信息协作IDSS应用研究 [D];江苏大学; 2007年
5李俊娴; 基于预处理技术的数据清理系统研究与实现 [D];南京航空航天大学; 2007年
6于小北; 住宅房地产不确定性优化决策问题的研究 [D];北京工业大学; 2008年
7季长冰; 针对贝叶斯分类器的数据质量的定量分析研究 [D];北京交通大学; 2008年
 中国博士学位论文全文数据库找到 3 条
 
1方辉; 机械制造信息资源的非规范知识处理技术研究 [D];四川大学; 2007年
2邓慧琼; 电网连锁故障预测分析方法及其应用研究 [D];华北电力大学(北京); 2007年
3宋立荣; 基于网络共享的农业科技信息质量管理研究 [D];中国农业科学院; 2008年
 中国期刊全文数据库找到 4 条
 
1李军,张玉琼; 一种神经网络集成分类器在暂态稳定评估中的应用 [J]; 南京工程学院学报(自然科学版); 2006年01期
2王学良,商广娟; 多指标的数据质量评价方法综述 [J]; 航空标准化与质量; 2007年06期
3贾革续,李习清,曹云辉; 可持续性融资的系统动力学分析 [J]; 基建优化; 2007年06期
4蔡迎春; 分布式机构库的质量控制 [J]; 图书情报工作; 2008年07期
 【相似文献】 
 中国期刊全文数据库
 
1赵卫东,李旗号; 数据开采的数据质量问题 [J];管理工程学报; 2002年01期; 28-31+3
2戴玲玲; 国民经济核算数据质量问题初探 [J];山西统计; 1998年10期; 22+29
3杜午禄; 数据质量问题的自我诊断 [J];北京统计; 2004年04期; 29-30
4余芳东; 外国统计数据质量的涵义、管理以及对我国的启示 [J];统计研究; 2002年02期; 26-29
5徐素玲; 企业统计数据质量管理三部曲 [J];北京统计; 2004年10期; 33-34
6戴玲玲; 国民经济核算数据质量问题初探 [J];统计与信息; 1998年04期; 15-16
7闻宝坤; 提高数据质量 搞好建筑业统计 [J];山西统计; 1994年11期; 15+31
8廖新华 ,黄卫东 ,韦学敏; 把好源头提高国内生产总值数据质量 [J];统计与咨询; 2000年04期; 41
9陈培文,李怀民; 耀眼的辉煌──在改革中崛起的山西省城调工作 [J];山西统计; 1998年04期; 4-5
10卫红; 统计数据失真的原因分析 [J];经济师; 2000年05期; 86-87
 中国重要报纸全文数据库
 
1罗天彦; 统计系统内影响基层数据质量的主要因素 [N];中国信息报; 2005年
2记者 王明瑞; 进一步提高服务水平和数据质量 [N];白银日报; 2005年
3付红旗; 为“数据质量万里行”叫好 [N];中国信息报; 2004年
4记者 原亮亮; 提高数据质量 提升服务水平 [N];汉中日报; 2006年
5记者 王凌 张娟; 提高数据质量 提升服务水平 [N];天水日报; 2005年
6龚守栋; 维护统计信誉 提高数据质量 [N];中国信息报; 2006年
7周英峰; 数据质量是经济普查的生命 [N];中华工商时报; 2007年
8记者 朱剑红; 坚决反对弄虚作假 努力提高数据质量 [N];人民日报; 2001年
9记者 孙海峰; 甘肃省明确今年统计工作重点 [N];甘肃日报; 2006年
10周小知; 提高数据质量须改善统计生态 [N];中国信息报; 2006年