【深度学习】Transformer网络的工作原理是什么？

Transformer网络的工作原理主要包括以下几个部分:
一、完全由注意力机制组成
Transformer网络完全由多头注意力模块组成,没有递归连接。
解决了RNN处理序列化数据的效率问题。

二、位置编码
Transformer使用位置编码技术来弥补没有递归的劣势。
为序列中的每个单词赋予独特的位置信息。

三、多头注意力
Transformer使用多头注意力机制,可以同时对序列做多种不同的关注。
提取不同特征。

四、残差连接
Transformer网络使用残差连接在每一层完成位置学习后,和原始输入作比较。
加强稳定性。

五、位置批标准化
Transformer使用批标准化技术,进一步提高稳定性。

六、编码-解码架构
Transformer使用编码-解码结构,进行生成式任务。

七、实例
常见的应用包括: machine translation、起源对话系统等。

总的来说,Transformer网络的工作原理主要包括:

其基本思想是:

Transformer网络彻底颠覆了传统序列建模方法,在NLP等领域产生颠覆性影响。