随便记录自己想到的问题,自问自答,后续会整理整个transformer 模型的原理及其复现

  1. 问题: 在transformer中每个功能层添加add & norm 层的原因
  2. batch norm, layer norm 原理及其区别,以及使用场景