【Attention机制】实现过程与相应的理论基础

最新推荐文章于 2024-09-13 18:10:37 发布

驭风少年君

最新推荐文章于 2024-09-13 18:10:37 发布

阅读量603

点赞数

分类专栏： BERT文本分类文章标签：深度学习自然语言处理神经网络

本文链接： https://blog.csdn.net/qq_44951759/article/details/124628450

版权

BERT文本分类专栏收录该内容

6 篇文章 1 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

【Attention机制】相应的理论基础

1.Attention图解说明

1.1 对比
1.2 Attention机制步骤图解

2. Attention的理论解释

2.1 第一种attention结构: Bahdanau Attention
2.2 第二种attention结构: Luong Attention

3. Self—Attention机制

1.Attention图解说明

1.1 对比

下面是传统的Seq2Seq的模型，根据输入的C，每次输入的结果都是C，最终得到相应的翻译的结果。

Seq2Seq的缺点就是对于每一次的翻译结果，对每个词都同等的对待，但是我们在翻译学习2字的时候，应该更加关注机器学习中的学习两个字。

Attention机制相对与传统的Seq2Seq的不同之处，在于其每次得到的结果不在是单一的一个C，而是当获取到机器两个字的数据的时候，得到的结果是C1，学习两个字的数据得到的结果是C2，将不同的C1和C2 传入到Decoder中得到最终的翻译结果。

1.2 Attention机制步骤图解

Z0是decoder部分学习得到，代表是解码器初始的隐藏层的状态。类似与编码器中的h0

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

驭风少年君

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

订阅专栏

DL之Attention：Attention注意力机制算法的起源与盛行及其长距离有效的原因、概述(背景/本质/与ED框架关系/架构/优缺点/扩展，理解，本质，变种)、案例应用(CV/NLP)之详细攻略

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

10-19

1万+

DL之Attention：Attention注意力机制算法的起源与盛行及其长距离有效的原因、概述(背景/本质/与ED框架关系/架构/优缺点/扩展，理解，本质，变种)、案例应用(CV/NLP)之详细攻略目录相关文章《Neural Machine Translation by Jointly Learning to Align and Translate》翻译与解读 Attention机制的起源与盛行及其在长距离有效的原因 Attention的概述

手撕Flash Attention！原理解析及代码实现

人工智能曾小健

05-28

2884

Flash Attention 的动机是尽可能避免大尺寸的注意力权重矩阵在 HBM 和 SRAM 之间的换入换出。tiling和。tiling 的基本思路：不直接对整个输入序列计算注意力，而是将其分为多个较小的块，逐个对这些块进行计算，增量式地进行 softmax 的规约。规约过程中只需要更新某些中间变量，不需要计算整个注意力权重矩阵。

参与评论您还未登录，请先登录后发表或查看评论

Attention机制介绍

qq_44087933的博客

03-10

1642

文章目录attention机制介绍（基于encoder-decoder框架）直观对比改进的依据（为什么能够做到改进）具体解释（soft attention）如何获得每个语义编码C如何获得每个输入的权重如何计算相似度attention机制本质（获得attention value过程的本质）大概过程抽象图具体计算步骤抽象图attention的种类1. 计算区域2. 所用信息3. 结构层次4. 模型方面self attention概念使用self attention的好处处理长距离序列处理变长序列具

Attention 机制

weixin_NineDays66

10-29

1775

SENet 详解 https://blog.csdn.net/xjz18298268521/article/details/79078551 图解 1.基础网络结构 2.各阶段计算方式公式 3.结构图：简介为了更清楚地介绍计算机视觉中的注意力机制，这篇文章将从注意力域（attention domain）的角度来分析几种注意力的实现方法。其中主要是...

注意力机制

顺其自然~专栏

09-13

173

Transformer、BERT等模型在NLP领域取得了突破，其模型主要依赖了注意力机制（Attention Mechanism）。注意力Attention机制被应用到越来越多的地方，那么注意力Attention机制的原理和本质到底是什么？

Attention机制

weixin_42228294的博客

04-23

3162

attention机制最早运用于自然语言处理（NLP); SE-net模型是在通道上加入注意力机制：第一个操作:Squeeze(Fsq)，通过全局池化(global pooling)，将每个通道的二维特征（H x W）压缩为1个实数，论文是通过平均值池化的方式实现。这属于空间维度的一种特征压缩，因为这个实数是根据二维特征所有值算出来的，所以在某种程度上具有全局的感受野，通道数保持不变，所以通过squeeze操作后变为1x1xC。第二个操作：excitation(Fex)，通过参数来为每个

Python 实现Attention-GRU时间序列预测（含完整的程序和代码详解）

热门推荐

kking_edc的博客

01-16

1万+

注意力机制是指我们将视觉注意力集中在图像的不同区域，或者将注意力集中在一句话中的某个词语，以下图为例：人类的视觉注意力允许我们以“高分辨率”关注某个特定区域（例如黄色框内的耳朵）同时以“低分辨率”处理周围的环境信息（例如下雪的背景），接下来我们转移关注点或者直接根据关注点作出相应的判断。给定一张图片的一些patch，其余部分的像素提供给我们patch所在区域是什么的信息。我们期望在黄框内看到一个耳朵，这是因为我们已经看到了一只狗鼻子、另外一个耳朵以及狗狗的眼睛（红框内的物体）。然而，毛衣和毯子对于判断狗

Attention(注意力机制代码)

07-16

Attention.zip文件中总结了几种关于注意力机制的代码，有keras和tensorflow，还有PyTorch框架的

深度学习：注意力机制Attention

皮皮blog

10-25

1万+

注意机制最早由Bahdanau等人于2014年提出（统计机器翻译中的对齐过程[NEURAL MACHINE TRANSLATION BY JOINTLY。

【转载】Attention Mechanism in Deep Learning

weixin_30916125的博客

03-31

1451

本篇随笔为转载，原文地址：知乎，深度学习中Attention Mechanism详细介绍：原理、分类及应用。参考链接：深度学习中的注意力机制。 Attention是一种用于提升基于RNN（LSTM或GRU）的Encoder + Decoder模型的效果的的机制（Mechanism），一般称为Attention Mechanism。Attention Mechanism目前非常流行，广泛应用于机...

【深度学习】：Attention机制

bqw的博客

12-13

625

深度学习：自注意力机制(Self-Attention)

十年以上架构设计经验，专注于软件架构和人工智能领域，对机器视觉、NLP、音视频等领域都有涉猎

12-11

1万+

自注意力机制（Self-Attention），有时也称为内部注意力机制，是一种在深度学习模型中应用的机制，尤其在处理序列数据时显得非常有效。它允许输入序列的每个元素都与序列中的其他元素进行比较，以计算序列的表示。这种机制使模型能够聚焦于输入序列中不同位置的关系，从而捕捉序列内的复杂依赖关系。

注意力机制（attention）和自注意力机制（self-attention）

m0_54180573的博客

01-22

3216

本文参考了b站博主蘅芜仙菌的视频以及文章如有侵权，联系删除。注意力机制其实是源自于人对于外部信息的处理能力。由于人每一时刻接受的信息都是无比的庞大且复杂，远远超过人脑的处理能力，因此人在处理信息的时候，会将注意力放在需要关注的信息上，对于其他无关的外部信息进行过滤，这种处理方式被称为注意力机制。针对于注意力机制的引起方式，可以分为两类，一种是非自主提示，另一种是自主提示。

Attention 机制 -- 基础篇

zhang2010hao的博客

11-06

469

Attention 机制 – 基础篇 Hard vs Soft [1] Attention首先分为两大类：Hard Attention 与 Soft Attention，两者的区别在于 Hard Attention 关注一个很小的区域，而soft Attention 关注的相对要发散。举个机器翻译方面的例子：我是小明 --> I am XiaoMing 对于 Hard At...

Attention机制详解

Wisimer

02-23

1万+

一、Attention 原理在Encoder-Decoder结构中，Encoder把所有的输入序列都编码成一个统一的语义特征c再解码，因此， c中必须包含原始序列中的所有信息，它的长度就成了限制模型性能的瓶颈。如机器翻译问题，当要翻译的句子较长时，一个c可能存不下那么多信息，就会造成翻译精度的下降。相比于原始的Seq2Seq模型的Decoder中只通过同一个向量c去计算隐状态，Attentio...

GAte attention 机制具体的实现过程

05-29

GAte Attention 机制是一种用于图神经网络中的注意力机制，用于捕捉同质图的异构性。它的实现过程主要包括以下几个步骤： 1. 计算节点特征向量：对于每个节点，首先计算其特征向量，该特征向量可以包括节点的属性、邻居节点的特征等信息。这个过程可以使用卷积神经网络、图卷积网络等技术来实现。 2. 计算节点之间的相似度：计算每对节点之间的相似度，可以使用内积、欧几里得距离、曼哈顿距离等方式来计算。 3. 计算注意力分数：利用节点之间的相似度计算注意力分数，可以使用 softmax 函数将相似度转换为注意力分数。 4. 计算加权和：将每个节点的特征向量与其它节点的注意力分数进行加权求和，得到每个节点的聚合特征向量。 5. Gate 机制：使用 Gate 机制来调整节点的聚合特征向量，将其乘以一个门控向量，门控向量的值可以通过学习得到。 6. 输出：将所有节点的调整后的聚合特征向量进行拼接或求和，得到整张图的特征向量。通过以上步骤，GAte Attention 机制可以实现对同质图的异构性进行捕捉，提高图神经网络的性能。