Reference & Notations
Abstract
利用了误差有界的有损压缩,降低了显存占用。
使用CNN模型与ImageNet数据集进行评估,能减少13.5x(baseline)与1.8x(最新压缩框架)的显存占用,同时准确李几乎没有损失。
Introduction
降低DNN训练时显存占用的一些方法:
- 重计算:activation data recomputation ; 适用于计算开销小、中间数据多的层。
- 迁移: migration(swap)
- 压缩: compression
- lossless: 压缩率有限,<=2x
- lossy: 代表工作JPEG-ACT,效果不好,有硬件需求限制。
以上3种方法是正交的,本文关注在compression部分。
Design of Proposed Framework
这部分看不太懂,需要结合完整论文看。
Experimental Evaluation
a | b |
---|---|
framework | Caffe / TensorFlow |
Hardware | A Node with 4 V100 |
Dataset | Imagenet |
CNN Model | AlexNet / VGG /ResNet-18/50 |
对精确度的影响
结论:训练AlexNet,开启压缩对精度变化曲线几乎没有影响
压缩率
结论:
- 提高高达13.5x的压缩率
- 对精度几乎没有影响,最高0.31%的下降
Overhead
- 有大约17%的overhead。
- 利用降低的显存可以增大batchsize,提高训练性能
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。