收藏本站
收藏 | 投稿 | 论文排版

Web大数据环境下的不一致跨源数据发现

余伟  李石君  杨莎  胡亚慧  刘晶  丁永刚  王骞  
【摘要】:Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性.

知网文化
【相似文献】
中国期刊全文数据库 前3条
1 赵泽宇;陈翼;张凯;宓詠;;校园大数据实施三阶段[J];中国教育网络;2014年01期
2 陈付平;付保宇;凌雨;刘瑞超;;石油勘探开发数据服务系统[J];计算机系统应用;2013年07期
3 查明华;浅谈Internet的最新进展[J];电子展望与决策;1996年02期
中国硕士学位论文全文数据库 前2条
1 颜倩倩;云计算平台下的数据起源安全方案研究[D];山东理工大学;2012年
2 姚海波;微博热点话题检测与趋势预测研究[D];华南理工大学;2013年
中国重要报纸全文数据库 前1条
1 江苏省邮电规划设计院有限责任公司 林延;大数据在网络优化中大有可为[N];人民邮电;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978