- 在解决的是什么问题?
- 为何成功,标志/准是什么?
- 在前人基础上的关键创新是什么?
- 关键结果有哪些?
- 有哪些局限性?如何优化?
- 这个工作可能有什么深远的影响?
目前弹性训练的方法,有两方面缺陷:
- 扩容后无法完全发挥并行的能力
- 缺少在不同设备间同步训练状态的机制
我们提出:
- 创新的 hybrid scaling 机制,让训练效率和模型性能之间取得均衡,能获得更多的并行度
- 根据设备拓扑来做并发的 IO-free 的 训练状态复制
- 避免启动和初始化的高代价,进一步提出异步的 协调机制
Elan 能在一秒级别做故障迁移(migration),以几乎可以忽略的运行时开销(小于千分之3)来做扩缩容。