浅谈Attention模型

11 篇文章 1 订阅
订阅专栏

目录

前言

正文

hard attention

soft attention

global attention

local attention

self-attention

总结


前言

我们先简单聊下 attention 模型的引入。以基于 seq2seq 模型的机翻为例,如果 decoder 只用 encoder 最后一个时刻输出的 hidden state, 可能会有两个问题:

  1. encoder 最后一个 hidden state, 与句子末端词汇的关联较大,难以保留句子起始部分的信息(长距离依赖)
  2. encoder 按顺序依次接受输入,可以认为encoder 阐述的 hidden state 包含词序信息。所以一定程度上 decoder 的翻译也基本沿着原始句子的顺序依次进行,但实际翻译却未必如此,下面是一个翻译的例子:

英文原句:space and oceans are the new world which scientists are trying to explore.

翻译结果:空间和海洋是科学家试图探索的新世界。

词汇对照如下:

可以看到,翻译的过程并不总是沿着原句从左至右依次进行翻译,例如上面例子的定语从句。
为了一定程度上解决以上的问题,14年的一篇文章Sequence to Sequence Learning with Neural Networks提出了一个有意思的trick,即在模型训练的过程中将原始句子进行反转,取得了一定的效果。

为了更好的解决问题,attention模型开始得到广泛的重视和应用。

正文

hard attention

只关注到某一个位置上的信息,叫做硬性注意力(hard attention)。
硬性注意力有两种实现方式:(1)一种是选取最高概率的输入信息;(2)另一种硬性注意力可以通过在注意力分布式上随机采样的方式实现。
硬性注意力模型的缺点:

硬性注意力的一个缺点是基于最大采样或随机采样的方式来选择信息。因此最终的损失函数与注意力分布之间的函数关系不可导,因此无法使用在反向传播算法进行训练。为了使用反向传播算法,一般使用软性注意力来代替硬性注意力。硬性注意力需要通过强化学习来进行训练。—— 《神经网络与深度学习》】

soft attention

软性注意力,其选择的信息是所有输入信息在注意力分布下的期望。不同位置的权重不同。

global attention

(未填坑...sorry...)

local attention

指路一篇论文:

■ 论文 | Effective Approaches to Attention-based Neural Machine Translation
■ 链接 | https://www.paperweekly.site/papers/806
■ 源码 | https://github.com/lmthang/nmt.matlab

 

文章中指出,local attention可以视为hard attention和soft attention的混合体(优势上的混合),因为它的计算复杂度要低于global attention、soft attention,而且与hard attention不同的是,local attention几乎处处可微,易于训练。

self-attention

self attention也经常被称为intra Attention(内部attention)。
在一般人物的encoder-decoder框架中,输入source和输出target内容是不一样的,比如对于英-中机器翻译来说,source是英文句子,target是对应的翻译出的句子,Attention机制发生在target的元素和source中的所有元素之间。
而self attention顾名思义,指的不是source和target之间的attention机制,而是source内部元素之间或者target内部元素之间发生的attention机制,也可以理解为target = source这种特殊情况下的注意力计算机之。其具体计算过程是一样的,只是计算对象发生了变化而已,所以此处不再赘述其计算过程细节。

引入self-attention后会更容易捕获句子中长距离的相互依赖的特征,因为如果是RNN或LSTM,需要依次序序列计算,对于远距离的相互依赖的特征,要经过若干时间步步骤的信息累积才能将二者联系起来,而距离越远,有效捕获的可能性越小。

但是self attention在计算过程中会直接将句子中的任意两个凡此的联系通过一个计算步骤直接联系起来,所以远距离依赖特征之间的距离被极大缩短,有利于有效地利用这些特征。除此外,self attention对于增加计算的并行性也有直接帮助作用。这是为何self attention逐渐被广泛使用的主要原因。

这里要是想具体了解可以指路一下 这篇博客,是讲Transformer的,在这里就不赘述了(包括其中的核心multi-head attention),或者直接指路两篇论文:

• 论文 | Attention Is All You Need
• 链接 | https://www.paperweekly.site/papers/224
• 源码 | https://github.com/Kyubyong/transformer
■ 论文 | Weighted Transformer Network for Machine Translation
■ 链接 | https://www.paperweekly.site/papers/2013
■ 源码 | https://github.com/JayParks/transformer

总结

本文对 attention 的五种结构,即 hard attention、soft attention、global attention、local attention、self-attention 进行了具体分析。五种 attention 在计算复杂度、部署难度、模型效果上会有一定差异,实际中还需根据业务实际合理选择模型。

Reference

https://zhuanlan.zhihu.com/p/37835894
https://www.cnblogs.com/guoyaohua/p/9429924.html
https://www.zhihu.com/question/68482809

Attention模型和Transformer模型
AI_000916的博客
11-09 348
14.1.1节讲解了Attention模型在Seq2Seq机器翻译中的应用。实际上,Attention作为一个近些年异常火爆的模型,有着广泛的应用。本节将介绍Attention模型的通用形式。我们通过类比了解一下Attention模型。家长带孩子去玩具店买玩具(一共有 n 个玩具),孩子自己挑玩具,用模型预测家长是否会在玩具店消费(只预测是否购买,不关心具体购买的玩具是什么)。每个玩具都有两类特征:1-形状,颜色,功能等;2-价格,安全性,益智性等。第一类特征主要用来吸引孩子;
浅谈Attention机制理解
真心乖宝宝的博客
06-22 1779
Attention 该文章参考下面博客,如有看不懂的地方,可以参考原文章: 参考文章1 参考文章2 参考文章3 参考文章4 一句话解释Attention <-- 给序列中各个元素分配一个权重系数” Attention 工作机制 在自然语言任务中,K和V往往是相同的 Attention函数共有三步完成得到attention value: (1) Q与K进行相似度计算得到权值 (2) 对权值softmax归一化 (3) 用归一化的权值与V加权求和 优点 1.可以灵活的捕捉全局和局部的联系 2. 每
深度学习的Attention模型
weixin_34184561的博客
10-12 167
前言 前面看到谷歌发表的运用在机器翻译上的论文《Attention is all you need》,很是让人惊讶,这是一种全新的模型,与之前的经典的seq2seq模型改动较大,它完全摒弃了RNN或CNN神经网络,大大简化了模型的复杂度,而且效果还相当好。当然Attention模型可以单独使用,但这篇文章我们来看看Attention的机制及怎么与经典的seq2seq结合。 seq2seq 前面我们...
SCI顶级优化 Matlab实现GA-TCN-LSTM-Attention多变量时间序列预测
最新发布
m0_60703264的博客
08-09 967
近年来,随着数据采集技术的快速发展,多变量时间序列预测问题在各个领域得到了广泛关注。然而,由于多变量时间序列数据的复杂性和非线性特征,传统的预测模型难以取得令人满意的效果。为了提高预测精度,本文提出了一种基于遗传算法优化的时空卷积神经网络 (TCN) - 长短期记忆网络 (LSTM) - 注意力机制 (Attention) 的多变量时间序列预测模型
attention模型
Abraham Ben
08-28 1272
以机器翻译为例说明: 普通的RNN机器翻译模型: 次结构弱点在于当target句子太长时,前面encoder学习到的embedding vector(红边框)可能会被后面的decoder遗忘。因此改进版本如下: 这样,每次在输入target的word的时候,除了可以看到上一个word,还可以看到最开始encoder学习到的embedding vector. 但是次结构的问题有: 只用一个emebdding vector代替一整个sequence, 可能最开始读入encoder的word最后算embe
Attention Model详解
11-23 389
  要是关注深度学习在自然语言处理方面的研究进展,我相信你一定听说过Attention Model(后文有时会简称AM模型)这个词。AM模型应该说是过去一年来NLP领域中的重要进展之一,在很多场景被证明有效。听起来AM很高大上,其实它的基本思想是相当直观简洁的。   AM 引言:   引用网上通俗的解释,首先,请您睁开眼并确认自己处于意识清醒状态;第二步,请找到本文最近出现的一个“A...
浅谈Attention注意力机制及其实现
空字符
06-03 4739
1. 什么是注意力机制 1.1 注意力机制的思想 关于什么是注意力机制,粗略的描述就是“你正在做什么,你就将注意力集中在那一点上”。这种机制就和人脑在思考问题时一样。例如我们在思考将句子“我是一个学生”翻译成英文的时候,脑子中首先想到的就是“我”⟷\longleftrightarrow⟷ "I"的这样一种映射(而不是先想到其它部分),这就是注意力机制在人脑中的表现。即,我们在按词组依次翻译这句话的...
通道注意力机制keras_浅谈Attention机制的作用
weixin_39669204的博客
12-21 4880
前言Attention机制是很好的一个东西,Attention机制在近几年来在图像,自然语言处理和cv等领域中都取得了重要的突破,被证明有益于提高模型的性能。让我们一起来了解下注意力机制吧。 什么是注意力机制所谓Attention机制,便是聚焦于局部信息的机制,比如,图像中的某一个图像区域。随着任务的变化,注意力区域往往会发生变化。面对上面这样的一张图,如果你只是从整体来看,只看到了很多人头,但是...
浅谈BERT/Transformer模型的压缩与优化加速
Paper weekly
12-31 4078
©作者 | 姚益武单位 | 阿里巴巴集团研究方向 | AI算法与工程架构前言BERT/Transformer结构及其变体,已成为自然语言处理(NLP)、语音识别 (ASR)等领域的主流序...
【基础整理】attention浅谈注意力机制与自注意力模型(附键值对注意力 + 多头注意力)
HicSuntLeones
03-09 5202
Vaswani, Ashish, et al. Attention is all you need. Advances in Neural Information Processing Systems. 2017. 论文原文:https://arxiv.org/pdf/1706.03762v5.pdf 源码:https://github.com/tensorflow/tensor2tensor (tensorflow / official)** https://github.com/facebookre.
深度学习中的Attention模型介绍及其进展
热门推荐
jteng的专栏
10-20 2万+
  近期对深度学习中的Attention模型进行了深入研究,该模型在图像识别、语音识别和自然语言处理三大深度学习的热门领域均有广泛的使用,是2014和2015年深度学习领域的重要进展。现对其原理、主要应用及研究进展进行详细介绍。 1. 基本原理   Attention模型最初应用于图像识别,模仿人看图像时,目光的焦点在不同的物体上移动。当神经网络对图像或语言进行识别时,每次集中于部分特征上...
深度学习方法(九):自然语言处理中的Attention Model注意力模型
weixin_30408675的博客
02-04 423
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.NET/xbinworld。 技术交流QQ群:433250724,欢迎对算法、技术感兴趣的同学加入。 上一篇博文深度学习方法(八):Encoder-Decoder模型,基本Sequence to Sequence模型描述了基本的Encoder-Decoder模型,在作为翻译模型的时候,这种基本的Encoder...
深度学习之Attention模型详解
THU数据派
11-26 3448
转载自:Datawhale(ID:Datawhale)作者:yif本文8434字41图,建议阅读22分钟。本文介绍深度学习中的Attention模型Attention的...
自然语言处理中的Attention Model:是什么及为什么
zdy0_2004的专栏
01-21 994
转自 张俊林        http://blog.csdn.net/malefactor/article/details/50550211 要是关注深度学习在自然语言处理方面的研究进展,我相信你一定听说过Attention Model(后文有时会简称AM模型)这个词。AM模型应该说是过去一年来NLP领域中的重要进展之一,在很多场景被证明有效。听起来AM很高大上,其实它的基本思
注意力模型Attention Model)
csdn_xmj的博客
08-01 5339
来源:Coursera吴恩达深度学习课程 在注意力模型直观理解中我们看到注意力模型如何让一个神经网络只注意到一部分的输入句子。当它在生成句子的时候,更像人类翻译。让我们把这些想法转化成确切的式子,来实现注意力模型Attention Model)。 如上图所示,我们先假定有一个输入句子,并使用双向的RNN(bidirectional RNN),或者双向的GRU或者双向的LSTM,去计算每个词的特征(features)。实际上GRU和LSTM经常应用于这个,可能LSTM更经常一点。对于前向传播(for
写文章

热门文章

  • DFS和BFS理解+模板+例题 21251
  • 关于xshell6连接虚拟机不弹出用户名和密码框的问题 17805
  • 交换机/路由器基本配置 9377
  • 关于Tensorflow2降版本tf1问题 7125
  • 系统学习vm虚拟机逆向 4038

分类专栏

  • 工具 3篇
  • C++ 6篇
  • 加密&解密 1篇
  • CTF
  • PWN 17篇
  • RE 34篇
  • Linux 4篇
  • NLP 11篇
  • 思科 9篇
  • 大作业 2篇
  • Python 3篇
  • Java 5篇
  • ACM 2篇

最新评论

  • 关于Tensorflow2降版本tf1问题

    weixin_47192994: 很有用,按楼主的的四个方法解决了

  • 关于xshell6连接虚拟机不弹出用户名和密码框的问题

    晴川130: 一般是IP地址发生了变化,在Linux获取新的IP,新建一个会话即可

  • 关于xshell6连接虚拟机不弹出用户名和密码框的问题

    四水の世界: 太感动了,原来是这样,感谢

  • DFS和BFS理解+模板+例题

    计科2201何信德: 可以说一下哪里错了吗?我没看出来表情包

  • 关于xshell6连接虚拟机不弹出用户名和密码框的问题

    Shier833_Ww: 我和博主是一样的问题22端口没打开所以连接不上,博主写的很简单且易懂,但我ssh没安装好,大家如果ssh安装出现问题可以参考下面这个博主的文章https://blog.csdn.net/coolljp21/article/details/104090258。(感谢以上两个博主!)

大家在看

  • 机械臂控制的基础知识 485
  • 深入解析Python数据容器 644
  • 【Python实例】基于MODIS遥感数据计算地表反照率(含Python全代码) 1453
  • Linux学习_1
  • C程序设计:判断某一年是否是闰年

最新文章

  • buuctf WEB前四题知识点学习
  • 浅谈Transformer
  • 浅谈fastText中的N-gram特征
2022年1篇
2021年13篇
2020年74篇
2019年7篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家长乐玻璃钢雕塑南阳广场玻璃钢雕塑厂家贵州玻璃钢雕塑模型厂家聊城小区玻璃钢雕塑厂家佛山市玻璃钢雕塑口碑浠水玻璃钢花盆花器镂空不锈钢校园玻璃钢雕塑设计六安商场中庭美陈上海小鸡玻璃钢花盆玻璃钢玩偶雕塑定制玻璃钢浮雕塑厂家新密泡沫玻璃钢景观雕塑厂家玻璃钢骆驼雕塑原理浙江多彩玻璃钢雕塑定制衢州户外玻璃钢雕塑海南玻璃钢卡通雕塑河源led发光玻璃钢雕塑现货郑州专业玻璃钢景观雕塑厂家南宁商场花艺美陈重庆特色玻璃钢雕塑供应商提供玻璃钢艺术雕塑铜陵玻璃钢雕塑生产厂家青海玻璃钢仿真雕塑嘉兴玻璃钢海豚雕塑厂家佛山主题玻璃钢雕塑供货商安徽玻璃钢雕塑公司泸州玻璃钢人物雕塑定制四川玻璃钢人物雕塑定制南京玻璃钢人物雕塑优惠福建超市商场美陈市场香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化