没写完


概念

从众多信息中选择出对当前任务目标更关键的信息。

起源

图像领域到自然语言处理领域

Encoder-Decoder框架

目前大多数注意力模型附着于Encoder-Decoder框架。
一般而言,文本处理和语音识别的Encoder部分通常采用RNN模型,图像处理的Encoder一般采用CNN模型。
对比:分心模型
Attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射。
在计算attention时主要分为三步,第一步是将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;然后第二步一般是使用一个softmax函数对这些权重进行归一化;最后将权重和相应的键值value进行加权求和得到最后的attention。目前在NLP研究中,key和value常常都是同一个,即key=value。

参考资料

https://blog.csdn.net/hpulfc/article/details/80448570
https://www.cnblogs.com/robert-dlut/p/8638283.html