概念

从众多信息中选择出对当前任务目标更关键的信息。

起源

图像领域到自然语言处理领域

Encoder-Decoder框架

目前大多数注意力模型附着于Encoder-Decoder框架。
一般而言，文本处理和语音识别的Encoder部分通常采用RNN模型，图像处理的Encoder一般采用CNN模型。
对比：分心模型
Attention函数的本质可以被描述为一个查询（query）到一系列（键key-值value）对的映射。
在计算attention时主要分为三步，第一步是将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；然后第二步一般是使用一个softmax函数对这些权重进行归一化；最后将权重和相应的键值value进行加权求和得到最后的attention。目前在NLP研究中，key和value常常都是同一个，即key=value。

参考资料

https://blog.csdn.net/hpulfc/article/details/80448570
https://www.cnblogs.com/robert-dlut/p/8638283.html

注意力机制

概念

起源

Encoder-Decoder框架

参考资料

Preview: