Attention mechanism 的主要作用是:
i、聚焦重点
Attention 模型可以学习聚焦(focus)序列中的关键部分,忽略无关部分。
ii、知道重点在哪
Attention 机制可以知道看重哪些部分,哪些部分不重要。
iii、学习上下文
Attention 可以学习序列的上下文,理解关联词之间的关系。
iv、弥补局限
Attention 可以弥补 RNN 等序列模型的局限性。
例如捕捉长程依赖。
v、可解释性
Attention 可以可视化其对序列的注意力分布,具有可解释性。
vi、端到端学习
Attention 作为神经网络的一个组成部分,可以端到端学习。
总的来说,Attention mechanism 的主要作用包括:
1.能聚焦序列中的关键信息
2.知道信息在哪里
3.学习序列上下文
4.弥补序列模型的局限性
5.具有可解释性
6.可以端到端学习
这主要是通过:
- 学习注意力权重
- 根据权重选择关注部分