Transformer网络的工作原理主要包括以下几个部分:
一、完全由注意力机制组成
Transformer网络完全由多头注意力模块组成,没有递归连接。
解决了RNN处理序列化数据的效率问题。
二、位置编码
Transformer使用位置编码技术来弥补没有递归的劣势。
为序列中的每个单词赋予独特的位置信息。
三、多头注意力
Transformer使用多头注意力机制,可以同时对序列做多种不同的关注。
提取不同特征。
四、残差连接
Transformer网络使用残差连接在每一层完成位置学习后,和原始输入作比较。
加强稳定性。
五、位置批标准化
Transformer使用批标准化技术,进一步提高稳定性。
六、编码-解码架构
Transformer使用编码-解码结构,进行生成式任务。
七、实例
常见的应用包括: machine translation、起源对话系统等。
总的来说,Transformer网络的工作原理主要包括:
- 完全使用注意力机制
- 使用位置编码技巧
- 使用多头注意力
- 使用残差连接
- 使用批标准化
- 采用编码器-解码器结构
- 实际应用充分示范
其基本思想是:
- 使用注意力机制提取序列依赖关系
- 通过位置编码恢复有序信息
- 多头注意力增加表现力
- 使用残差和标准化增加稳定性
- 编码器-解码器构建端到端模型
Transformer网络彻底颠覆了传统序列建模方法,在NLP等领域产生颠覆性影响。