| | | | | 数据开采的数据质量问题 | | | 赵卫东;李旗号 | | | 数据质量是影响数据开采效果的重要因素 ,这个问题并未受到人们的充分重视。本文针对数据质量在数据开采中的地位 ,给出了数据质量评价的几个主要尺度。并且结合统计学和机器学习的理论 ,分析了解决数据质量的方法 ,强调提高数据质量的出发点在于控制数据源的质量。 【作者单位】:东南大学经管学院 南京210096
(赵卫东);合肥工业大学 合肥230009(李旗号) 【关键词】:数据开采;数据质量;数据仓库 【基金】:江苏省自然科学基金资助项目 ( 76 0 5 730 0 72 ) 【分类号】:F222 【DOI】:cnki:ISSN:1004-6062.0.2002-01-006 【正文快照】: 随着管理信息技术的广泛使用 ,许多部门都积累了大量的数据。这些数据从不同的侧面反映企业的基本活动。面对海量的数据 ,高层决策者却感到信息贫乏。原因是决策者感兴趣的信息是隐藏在数据中的。因此从导构、分布的数据源—数据仓库中挖掘有用的模式 ,成为辅助决策 ,提高竞争 | | | | | | 推荐 下载CAJ全文 下载PDF全文 | | | CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式 | | | | Research on Data Quality for Data Mining | | | By ZHAO Wei-dong (College of Economics and Management;East-Sowth University;Nanjing 210018); LI Qi-hao(Hefei University of Technology;Hefei 230009) | | | It is a widely accepted maxim that decision are no better than data on which they are based. Data quality is vital to data mining,which have been called researchers' attention. In relation to the importance of data quality for data mining,some data quality indicators are analyzed in detail and the improvement methods of data quality are analysed using statistics and machine learning theory etc. in this paper. To solve the problem of data quality,it is a start to control the quality of data sources where data are choosed to warehouse. 【Keyword】:data mining;data quality;data warehouse |
| | | | | | 1 | 李国和,赵沁平; 信息系统的一种分块特征选取方法 [J]; 北京航空航天大学学报; 2003年03期 | | 2 | 李龙澍,程慧霞,卢冰原; 基于凸Rough集的数据约简和规则发现研究 [J]; 东南大学学报(自然科学版); 2002年02期 | | 3 | 霍颖瑜; PCA和粗糙集的联合自寻优特征选择在人脸识别中的应用 [J]; 佛山科学技术学院学报(自然科学版); 2007年01期 | | 4 | 许少华,赵万平,廖太平,鲁笛,李欣; 一类模式识别及其在地层对比中的应用 [J]; 大庆石油学院学报; 2002年01期 | | 5 | 叶东毅; 基于粗糙隶属函数的规则组合可信度计算与推理 [J]; 福州大学学报(自然科学版); 2002年03期 | | 6 | 缑锦,叶东毅; 基于概念格的求所有绝对属性约简的一个算法 [J]; 福州大学学报(自然科学版); 2002年03期 | | 7 | 杨萍,杨明; 基于VPRS的重要属性评价方法研究 [J]; 安徽工程科技学院学报(自然科学版); 2003年01期 | | 8 | 姜涛,韩富春,范卫星; 基于粗糙集理论的架空输电线路运行状态评估 [J]; 电气技术; 2007年04期 | | 9 | 杨明,孙志挥; 改进的差别矩阵及其求核方法 [J]; 复旦学报(自然科学版); 2004年05期 | | 10 | 郑丽英,王庆荣,刘丽艳; 面向属性的粗集数据挖掘方法研究 [J]; 兰州理工大学学报; 2005年02期 |
|
| | | | | | 1 | 马翠,刘琼荪,周先东; 基于相对区分矩阵的遗传模拟退火属性约简算法 [A];第九届中国青年信息与管理学者大会论文集 [C]; 2007年 | | 2 | 王丹,吴孟达,刘银山; 属性约简的一种简单算法 [A];第12届全国模糊系统与模糊数学学术年会论文集 [C]; 2004年 | | 3 | 张铮,苏旭武,张道德,陈学锋; 装载机故障诊断属性约简算法 [A];湖北省机械工程学会青年分会2006年年会暨第2届机械学院院长(系主任)会议论文集(下) [C]; 2006年 | | 4 | 杨善林,刘业政,马溪骏; 基于β-δ_0粗糙集模型的属性约简算法 [A];2003年中国管理科学学术会议论文集 [C]; 2003年 | | 5 | 李仁璞,黄道,高茂庭; 一种快速的决策规则抽取方法 [A];2005中国控制与决策学术年会论文集(下) [C]; 2005年 | | 6 | 游凤荷,游汛; 粗糙集的约简算法在涡流传感器设计中的应用 [A];2007'湖北·武汉NDT学术年会论文集 [C]; 2007年 |
|
| | | | | | 1 | 李万庆,李文华; 施工项目管理规划中的模糊排序问题 [J]; 电力建设; 1999年05期 | | 2 | 杜永明; 数据仓库中数据质量若干问题的研究 [J]; 福建电脑; 2003年01期 | | 3 | 吴树畅,郭云; 关于不确定性与风险的思考 [J]; 财会月刊; 2004年17期 | | 4 | 徐雪峰,吴根秀; 粗糙集理论中决策表属性约简的信息表示 [J]; 江西师范大学学报(自然科学版); 2001年02期 | | 5 | 甘德强,胡朝阳,沈沉; 美国新英格兰备用电力市场设计和优化新模型 [J]; 电力系统自动化; 2003年02期 | | 6 | 管霖,曹绍杰; 基于人工智能的大系统分层在线暂态稳定评估 [J]; 电力系统自动化; 2000年02期 | | 7 | 顾雪平,曹绍杰,张文勤; 人工神经网络和短时仿真结合的暂态安全评估事故筛选方法 [J]; 电力系统自动化; 1999年08期 | | 8 | 于之虹,郭志忠; 基于数据挖掘理论的电力系统暂态稳定评估 [J]; 电力系统自动化; 2003年08期 | | 9 | 计国君; 数据仓库技术的数据存贮与检索 [J]; 东南大学学报(哲学社会科学版); 2002年S1期 | | 10 | 刘建成,蒋新华,吴今培; 一种知识推理规则归纳系统的实现 [J]; 系统工程; 2003年03期 |
|
| | | | | | 1 | Koperski K, Han J; Discovery of spatial association rules in geographic information databases [M];; 1995年 | | 2 | Han J,,Kamb rM,Data M; Concepts and Techniques[M] [M];; 2001年 | | 3 | Franklin S, Gaesser A; Is it an agent, or just a program? A taxonomy for autonomous agents[A] [M];Proc of 3rd Int Workshop on Agent Theories, Architactures and Languages[C]; 1996年 | | 4 | Analia Lourenco, Joaqium Goncalves, Orlando Belo; Agent-based knowledge extraction services inside enterprise data warehousing systems environments [A] [M];Proc of 12th Int Workshop on Database and Expert Systems Appl[C]; 2001年 | | 5 | Lenzmann B, Wahsmuth I; Contract-net-based learning in a user-adaptive interface agency [M];Lecture Notes in Artificial Intelligence; 年 | | 6 | Wooldridge MJ, Jennings N R; Intelligent agent: theory and practice [J] [M];Knowledge Engineering Review; 1995年 | | 7 | Sandip Sen; Report on IJCA-95 Workshop on Adaptation and Learning in Multi-Agent Systems [M];http://euler.mcs.utulsa.edu/~sandip/wsreport.html; 年 | | 8 | Nagendra Prasad, Maram V; Learning Situation-Specific Control in Multiagent Systems [M];; 1997年 | | 9 | [M];http://www.ics.uci.edu/~mlearn/MLRepository.html; 年 | | 10 | [M];http://www.alphaworks.ibm.com/tech/able; 年 |
|
| | | | 1 | 杜永明; 数据仓库中数据质量若干问题的研究[J]; 福建电脑; 2003年01期; 11-13 | | 2 | 张亚莉,杨乃定; 企业人力资源风险模糊综合评价方法研究[J]; 管理工程学报; 2002年01期; 25-27+3 | | 3 | 杨海珍,陈金贤; 腐败、腐败治理与资本外逃关系的博弈分析[J]; 管理工程学报; 2002年01期; 8-11+2 | | 4 | 胡劲松; 模糊环境下大型工程项目网络计划方法研究[J]; 管理工程学报; 2002年01期; 22-24+3 | | 5 | 戴志敏; 中国风险投资:制度性缺陷及纠正[J]; 管理工程学报; 2002年01期; 37-40+3-4 | | 6 | 曹韫建; 运输成本内生化的三阶段Hotelling模型[J]; 管理工程学报; 2002年01期; 12-14+2 | | 7 | 陈国权,马萌; 组织学习评价方法和学习工具的研究及在30家民营企业的应用[J]; 管理工程学报; 2002年01期; 32-36+3 | | 8 | 王愚,达庆利; 一种类生物的企业系统模型[J]; 管理工程学报; 2002年01期; 41-45+4 | | 9 | 张玉林,仲伟俊,梅姝娥,刘靖; 客户档案知识的挖掘方法研究[J]; 管理工程学报; 2002年03期; 119-121 | | 10 | 方幼林
,杨冬青
,唐世渭
,张卫华
,余利波
,付强; 数据仓库中数据质量控制研究[J]; 计算机工程与应用; 2003年13期; 4-7 |
|
|
|