hack-SysML/papers/layer-normalization.md at master · Jack47/hack-SysML · GitHub

在解决的是什么问题？把 BN 的加速效果引入到 RNN 里
为何成功，标志/准是什么？
在前人基础上的关键创新是什么？计算更简单，并不是每个维度上的，而是某一层共享 alpha 和 beta
关键结果有哪些？
有哪些局限性？如何优化？
这个工作可能有什么深远的影响？

layernorm 的输入假设是 [b,s,h]，那么他中间产出的是 mean([b, s])，variance([b, s])，即是对 hidden 这个纬度做平均。而输出大小不变，依然是 [b, s, h]，但是 h 这个纬度上的值的范围会被归一化