hack-SysML/hardware/GPU/flops-calculus-lm.md at master · Jack47/hack-SysML · GitHub

来自：https://medium.com/@dzmitrybahdanau/the-flops-calculus-of-language-model-training-3b19c1f025e4

符号：

训练 transformer 模型所需的计算是 C，它的参数量是 N，训练所需的 tokens 数量是 D

那么就似地： C ～= 6ND，考虑 checkpoint 技术的情况下，大概会是 8ND

此时训练所需时间 T = C/集群的吞吐。而集群吞吐=GPU卡个数*每个上达到的 TFLOPs。平常我们经常说的训练达到的 TFLOPs 就是每个卡上的计算吞吐。