基于网络压缩与切割的深度模型边云协同加速机制研究
【摘要】:人工智能(Artificial Intelligence,AI)的先进技术已被广泛应用于实时地处理大量数据,以期实现快速响应.但是,部署基于AI的各种应用程序的常规方法带来了巨大的计算和通信开销.为了解决这一问题,提出了一种基于网络压缩与切割技术的深度模型边云协同加速机制,该技术可以压缩和划分深度神经网络(Deep Neural Networks, DNN)模型,以边云协同的形式在实际应用中实现人工智能模型的快速响应.首先压缩神经网络,以降低神经网络所需要的运行时延,并生成可用作候选分割点的新层,然后训练预测模型以找到最佳分割点,并将压缩的神经网络模型分为两部分.将所获得的两部分分别部署在设备和云端服务器中,这两个部分可以协同地将总延迟降至最低.实验结果表明,与4种基准测试方法相比,本文所提出的方案可以将深度模型的总延迟至少降低70%.
【相似文献】 | ||
|
|||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||
|