transformer 手搓过程及思考

1. 前言

最近在研究transformer,发现网上很多教程都是直接给出代码,没有详细讲解,导致自己看了很久还是一头雾水,因此决定自己动手实现一个transformer,加深对transformer的理解。

2. transformer 基本结构

transformer的基本结构如下:

transformer

transformer由encoder和decoder两部分组成,encoder和decoder都是由多个相同的层堆叠而成,每个层由多头自注意力机制和前馈神经网络组成。

参考