优势: 并行策略支持的多: Fill-Drain, 1F1B (async, sync, interleaved)。 tau 里配图很多 劣势: 未来工作: 增加自动化程度:减轻用户指定 batch维度或pipeline切分点的负担 扩展到更多并行:MoE,Tensor 并行 ##TODO 架构里有不少东西,可以学习下