什么是注意力机制？ – 编程技术之美-IT之美

注意力机制是一种用于序列建模的机制,它可以自动学习输入序列中的重要特征的权重分布,用于生成输出。

常用的注意力机制有:

python
attention(Q, K, V) = softmax(QK^T)V

其中Q是输出序列的特征,K和V是输入序列的特征。

python
attention(Q, K, V) = softmax(f(Q, K))V

其中f是计算Q和K相似度的网络。

Scaled Dot-Product Attention:
是Dot-Product Attention的扩展,加入了缩放因子对相似度进行缩放,以避免相似度变小时梯度消失的问题。

python
attention(Q, K, V) = softmax(QK^T/sqrt(d_k))V

其中d_k是K的维度。

python
MultiHead(Q, K, V) = Concat(head1, head2, ... , headn)

headi = Attention(QWiQ, KWiK , VWiV )

其中WiQ、WiK 和 WiV 是权重矩阵。

注意力机制使得模型可以自动学习输入序列的权重分布,已在许多序列建模任务中得到应用。理解不同注意力机制的原理和算法可以帮助我们设计新的模型。在实践中根据任务选择合适的注意力机制也是很重要的。