Skip to content

Latest commit

 

History

History
9 lines (5 loc) · 501 Bytes

flops-calculus-lm.md

File metadata and controls

9 lines (5 loc) · 501 Bytes

来自:https://medium.com/@dzmitrybahdanau/the-flops-calculus-of-language-model-training-3b19c1f025e4

符号:

训练 transformer 模型所需的计算是 C,它的参数量是 N,训练所需的 tokens 数量是 D

那么就似地: C ~= 6ND,考虑 checkpoint 技术的情况下,大概会是 8ND

此时训练所需时间 T = C/集群的吞吐。而集群吞吐=GPU卡个数*每个上达到的 TFLOPs。平常我们经常说的训练达到的 TFLOPs 就是每个卡上的计算吞吐。