Reference
Motivation
- NCCL中提供的Reduction类操作(Sum,Prod)等,对于压缩后的数据不适合。
- 节点间通信才是瓶颈。一开始不需要高度压缩(可能会影响精度)。
Design Overview
- 节点内通信:FP32 $\rightarrow$ FP16
- 节点间通信:需要大幅度的压缩。与框架相关,需要实现在BytePS Core中。
Interface
略
Implementation
略过
Exps
略过
Compression Algorithms
oneboit
- L1norm
- signbit
- pack
topk
send the largest k elements
randomk
send k elements randomly
dithering
To do yet.
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。