Skip to content

Latest commit

 

History

History
18 lines (15 loc) · 831 Bytes

elan-towards-generic-and-efficient-elastic-training-for-deep-learning.md

File metadata and controls

18 lines (15 loc) · 831 Bytes
  1. 在解决的是什么问题?
  2. 为何成功,标志/准是什么?
  3. 在前人基础上的关键创新是什么?
  4. 关键结果有哪些?
  5. 有哪些局限性?如何优化?
  6. 这个工作可能有什么深远的影响?

摘要

目前弹性训练的方法,有两方面缺陷:

  1. 扩容后无法完全发挥并行的能力
  2. 缺少在不同设备间同步训练状态的机制

我们提出:

  1. 创新的 hybrid scaling 机制,让训练效率和模型性能之间取得均衡,能获得更多的并行度
  2. 根据设备拓扑来做并发的 IO-free 的 训练状态复制
  3. 避免启动和初始化的高代价,进一步提出异步的 协调机制

Elan 能在一秒级别做故障迁移(migration),以几乎可以忽略的运行时开销(小于千分之3)来做扩缩容。