【Attention机制】实现过程与相应的理论基础
【Attention机制】相应的理论基础
- 1.Attention图解说明
-
- 1.1 对比
- 1.2 Attention机制步骤图解
- 2. Attention的理论解释
-
- 2.1 第一种attention结构: Bahdanau Attention
- 2.2 第二种attention结构: Luong Attention
- 3. Self—Attention机制
1.Attention图解说明
1.1 对比
下面是传统的Seq2Seq的模型,根据输入的C,每次输入的结果都是C,最终得到相应的翻译的结果。
Seq2Seq的缺点就是对于每一次的翻译结果,对每个词都同等的对待,但是我们在翻译学习2字的时候,应该更加关注机器学习中的学习两个字。
Attention机制相对与传统的Seq2Seq的不同之处,在于其每次得到的结果不在是单一的一个C,而是当获取到机器两个字的数据的时候,得到的结果是C1,学习两个字的数据得到的结果是C2,将不同的C1和C2 传入到Decoder中得到最终的翻译结果。
1.2 Attention机制步骤图解
Z0是decoder部分学习得到,代表是解码器初始的隐藏层的状态。类似与编码器中的h0
驭风少年君: 有一个复制动态方程的参与主体被约掉
驭风少年君: 确实存在笔者的错误
balabaljdbhd: 如果有的均衡点有特征值为0是为啥啊
m0_45092094: 请问这个data原始shape是把评论分词以后的各个单词吗
iuneanea: 同意,应该是作者笔误