请问一下作者用的是什么显卡训练的(or多卡?),我这边训练一张44G显存的显卡,只能跑batchsize为2的NBC2小模型,并且layer最多设置成4.推理的时候显示需要162G内存(可能是我输入的音频长度太长了,2~3min的),因此只能用CPU推理,非常慢。以上情况是正常情况还是有哪里设置有问题?