Grouped GEMM: A lightweight library exposing grouped GEMM kernels in PyTorch
megablocks 里有好几种 MoE 实现,如果想实现 dMoE(dropless MoE),就得用 grouped GEMM。需要设置 mlp_impl == 'grouped'
看看 moe-expert-model-parallelism 是怎么做的?只是让每张卡上一个 expert?
Grouped GEMM: A lightweight library exposing grouped GEMM kernels in PyTorch
megablocks 里有好几种 MoE 实现,如果想实现 dMoE(dropless MoE),就得用 grouped GEMM。需要设置 mlp_impl == 'grouped'
看看 moe-expert-model-parallelism 是怎么做的?只是让每张卡上一个 expert?