- 在解决的是什么问题?diffusion 模型在生成图片多样性和高质量方面很成功,但是占用的显存和速度依然是实用落地方面的障碍
- 为何成功,标志/准是什么?
- 在前人基础上的关键创新是什么?把噪音预估网络进行压缩,通过 PTQ 来加速生成的过程。在多个 timestep 里,噪音预估网络里的输出的分布是一直在变化的,我们设计了在不同 timestep 里采样 data calibration scheme 来处理 multi-timestep 结构。实现表明可以直接量化全精度模型到 8-bit 或者 4-bit 模型上,而同时不需要重新训练(PTQ),保持 FID 改变最大在 1.88。首次实现了 4 比特的权重,而不丢失太多 perceptual quality。
- 关键结果有哪些?
- 有哪些局限性?如何优化?
- 这个工作可能有什么深远的影响?