MapReduce体系架构和工作流程

3 篇文章 0 订阅
订阅专栏

前言:MapRedeuce这一章节是非常重要的,涉及了很多实例,这篇文章对MapReduce进行概述,了解它的架构和工作机制,为编程做好基础。

概述

1、分布式并行编程
MapReduce是最先由谷歌提出的分布式并行编程模型,相对于传统并行计算框架来讲,它采用非共享式存储,容错性好,以普通的PC机作为硬件,大大节约成本,编程简单,适用于批处理、非实时、数据密集型数据。
2、MapReduce模型
(1)MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽 象到了两个函数:Map和Reduce
在这里插入图片描述

(2)MapReduce采用“分而治之”策略,一个存储在分布式文件系统中的 大规模数据集,会被切分成许多独立的分片(split),这些分片可以被多个Map任务并行处理。
(3)MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave。Master上运行JobTracker,Slave上运行TaskTracker

MapReduce的体系结构

主要由四个部分组成,分别是:Client、JobTracker、TaskTracker以及Task。
1、Client:程序通过Client提交到JT端,可以通过Cilent提供的接口查看作业运行状态。
2、JobTracker: 监控资源、调度作业,监控所有的TT和Job的健康,一旦发现失败,就会将任务转移到其他节点。
3、TaskTracker: 想JT汇报资源使用情况和作业运行情况,接受JT的命令并执行。
4、Task: Task 分为Map Task 和Reduce Task 两种,均由TaskTracker 启动。

MapReduce工作流程

1、概述
在这里插入图片描述
由图可知,不同的Map、Reduce任务之间不会通信,所有的数据交换都要通过MapReduce框架实现。

2、各个执行阶段
在这里插入图片描述
图中的split(分片): HDFS 以固定大小的block 为基本单位存储数据,而对于MapReduce 而言,其 处理单位是split。split 是一个逻辑概念,它只包含一些元数据信息,比如数据 起始位置、数据长度、数据所在节点等。它的划分方法完全由用户自己决定。
Map任务数量: 一个split创建一个Map,由split数量决定。
Reduce任务数量: 最优的Reduce任务个数取决于集群中可用的reduce任务槽(slot)的数目。通常设置比reduce任务槽数目稍微小一些的Reduce任务个数(这样可以预留一些系统资源处理可能发生的错误)

Shuffle过程详解

1、Shuffle过程简介
所谓 Shuffle,是指对 Map 输出结果进行分区、排序、合并等处理并交给 Reduce 的过程。因此,Shuffle 过程分为 Map 端的操作和 Reduce 端的操作,主要执行以下操作
在这里插入图片描述
2. Map 端的 Shuffle 过程
(1)输入数据和执行 Map 任务
Map 任务的输入数据一般保存在分布式文件系统的文件块中,这些文件块的格式是任意的,可以是文档,也可以是二进制格式的。Map 任务接受 <key,value> 作为输入后,按一定的映射规则转换成一批<key,value> 进行输出。
(2)写入缓存
每个Map任务分配一个缓存,MapReduce默认100MB缓存
(3)溢写(分区、排序、合并)
设置溢写比例0.8;分区默认采用哈希函数;排序是默认的操作;排序后可以合并;合并不能改变最终结果
(4)文件归并
在Map任务全部结束之前进行归并,归并得到一个大的文件,放在本地磁盘。文件归并时,如果溢写文件数量大于预定值(默 认是3)则可以再次启动Combiner,少于3不需要;JobTracker会一直监测Map任务的执行,并通知 Reduce任务来领取数据
合并(Combine)和归并(Merge)的区别
两个键值对<“a”,1>和<“a”,1>,如果合并,会得到<“a”,2>,如果归并,会得到<“a”,<1,1>>
在这里插入图片描述
3、Reduce 端的 Shuffle 过程
(1)领取数据
Reduce任务通过RPC向JobTracker询问Map任务是否已经完成,若完成,则领取数据。
(2)归并数据
Reduce领取数据先放入缓存,来自不同Map机器,先归并,再合并,写入磁盘;多个溢写文件归并成一个或多个大文件,文件中的键值对是排序的;当数据很少时,不需要溢写到磁盘,直接在缓存中归并,然后输出给Reduce
(3)把数据输入给 Reduce 任务
磁盘中经过多轮归并后得到的若干个大文件,不会继续归并成一个新的大文件,而是直接输入给
Reduce 任务,这样可以减少磁盘读写开销。由此,整个 Shuffle 过程顺利结束。接下来Reduce 任务会执行 Reduce 函数中定义的各种映射,输出最终结果,并保存到分布式文件系统中。

MapReduce体系结构
实践求真知
12-09 6295
MapReduce体系结构特点 1 分布式编程架构 2 以数据为中心,更看重吞吐率 3 分而治之 4 Map将一个任务分解成多个子任务 5 Reduce将分解后多个子任务分别处理,并将结果汇总为最终结果 二 相关举例 1 清点图书馆藏书 2 统计单词出现次数 3 混合辣椒酱的生成过程 三 MapReduce体系结构 四 基本概念 1 作业(J
【大数据】学习笔记——MapReduce体系结构
二琳爱吃肉的博客
10-26 3842
MapReduce体系结构 MapReduce体系结构主要由四个部分组成,分别是:Client、JobTracker、TaskTracker以及Task。 Client 用户编写的MapReduce程序通过Client提交到JobTracker端 用户可通过Client提供的一些接口查看作业运行状态 JobTracker JobTracker负责资源监控和作业调度 JobTracker 监控所有TaskTracker与Job的健康状况,一旦发现失败,就将相应的任务转移到其他.
MapReduce
weixin_60912935的博客
10-06 494
mapreduce概况
hadoop生态圈(四)- MapReduce
最新发布
weixin_58305115的博客
08-28 1037
MapReduce解决的是海量数据计算。 MapReduce的思想核心是“分而治之”。就是把一个复杂的问题按一定的“分解”方法分为规模较小的若干部分,然后逐个解决,分别找出各部分的解,再把把各部分的解组成整个问题的解。Map负责“分”,Reduce负责“合”。MapReduce处理的数据类型是键值对。
Hadoop体系结构之 Mapreduce
weixin_34319111的博客
08-12 164
MR框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点上的TaskTracker共同组成。主节点负责调度构成一个作业的所有任务,这些任务分布在不同的不同的从节点上。主节点监视它们的执行情况,并重新执行之前失败的任务。从节点仅负责由主节点指派的任务。当一个Job被提交时,JobTracker接受到提交作业和配置信息之后,就会将配置信息等分发给从节点,同时调度任务并监控Ta...
MapReduce体系架构详解
u011926899的专栏
08-09 3064
1. 什么是MapReduce? 简言之,mapreduce 一种可用于数据处理的以数据为中心(数据本地化)分布式编程模型,采用的是一种分而治之的思想,分为map和reduce两个阶段。 Map: 将一个Job分解为若干个task Recude: 完成分解的task,并且汇总结果。 eg: 图书馆以书架进行图书清点。这里“以书架为单位”,就是map的过程,分配任务。而每个书架安排人来清点并...
理解MapReduce计算构架
WTF0001的博客
05-10 207
用Python编写WordCount程序任务 程序 WordCount 输入 一个包含大量单词的文本文件 输出 文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔 编写map函数,reduce函数 ...
MapReduce体系结构
wealon的技术专栏
12-14 2147
MapReduce体系结构 ★ MapReduce的原理 MapReduce是一种分布式的计算模型,用于解决大数据的计算问题。 MapReduce由两阶段组成,即Map阶段和Reduce阶段,用户只需要实现map()与reduce()两个函数。     ★ MapReduce执行过程 包括两大任务,如下Map任务和Reduce任务。 ▲ Map任务步骤: M1.读取输入文件的内容
MapReduce架构
10-26
### MapReduce架构详解 #### 一、概述 MapReduce是一种重要的编程模型,它不仅能够处理大规模数据集,还能实现高效的大数据处理与分析。MapReduce的设计初衷是为了简化并行编程,使得开发人员无需深入理解底层...
Map-Reduce原理体系架构工作机制,eclipse与Hadoop集群连接
01-09
### Map-Reduce原理体系架构工作机制 #### 一、Map-Reduce原理概述 Map-Reduce是一种编程模型,用于处理大规模数据集(通常是TB级或更大),该模型可以在大量计算机(称为集群)上进行并行处理。Map-Reduce的...
MapReduce的介绍以及架构
weixin_72843193的博客
10-17 446
MapReduce的基础知识
MapReduce简述
qq_42139963的博客
06-07 2030
MapReduce 参考: https://www.cnblogs.com/lixiansheng/p/8942370.html https://baike.baidu.com/item/MapReduce/133425?fr=aladdin 概念 MapReduce是面向大数据并行处理的计算模型,用于大规模数据集的并行计算。它提供了一个庞大但设计精良的并行计算软件框架,能自动完成计算任务的并行化处理,自动划分计算数据和计算任务,在集群节点上自动分配和执行任务以及收集计算结果,将数据分布存储、数据通信、
MapReduce体系结构及各种算法(1)
漫步
08-07 1182
MapReduce体系结构及各种算法(1)
Hadoop 中HDFS、MapReduce体系结构
weixin_30869099的博客
08-07 342
1.hadoop的概念及其发展历程 Hadoop是Apache开源组织的一个分布式计算开源框架,用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计:HDFS和MapReduce,HDFS实现存储,MapReduce实现原理分析处理。数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Hadoop的集群处...
初步掌握MapReduce架构及原理
04-19 249
目录   1、MapReduce定义   2、MapReduce来源   3、MapReduce特点   4、MapReduce实例   5、MapReduce编程模型   6、MapReduce 内部逻辑   7、MapReduce架构   8、MapReduce框架的容错性   9、MapReduce资源组织方式 1、MapReduce 定义 ...
新一代mapreduce体系架构介绍-YARN
云计算、分布式架构、K8S、大数据、机器学习、搜索、推荐、广告
10-12 9999
最近研究了下新一代的mapreduce框架YARN,这里先对YARN框架的引入和架构做个介绍,后续针对每一块做深入分析 从Hadoop0.23版本开始对于mapduce计算框架,就完全是新的架构了(YARN)。老的版本MRv1 Jobtracker中存在单点,功能比较多的问题,负责资源管理调度和job的生命周期管理(task调度,跟踪task过程状态,task处理容错),这样当大量的任务需要处理
深入理解MapReduce架构及原理
热门推荐
JimGray的博客
04-20 1万+
MapReduce 定义   Hadoop 中的 MapReduce是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数据集 MapReduce 特点    MapReduce 为什么如此受欢迎?尤其现在互联网+时代,互联网+公司都在使用 MapReduceMapReduce 之所以如此受欢迎,它主要有以下几个特点
MapReduce体系结构
weixin_30642561的博客
07-28 344
转载于:https://www.cnblogs.com/fanweisheng/p/11261078.html
mapReduce体系结构和各种算法 笔记六
weixin_30794851的博客
10-16 139
mapReduce体系结构和各种算法 Mapreduce工作机制 任务执行优化 推测式执行:jobtracker会将执行慢的任务kill掉,启动一个新的相同备份任务 在mapred-site.xml中设置map和reduce任务的开启和关闭 Mapred.map.tasks.speculative.executi...
深入理解Hadoop MapReduce架构与实战详解
《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》迷你书是一本深入探讨Hadoop技术核心组件MapReduce的书籍,它不仅涵盖了MapReduce的基本概念和工作原理,还着重分析了其在云计算环境中的应用和架构设计。...
写文章

热门文章

  • 电脑换硬盘后出现error:no boot disk has been detected or the disk has failed怎么办 47630
  • 电脑电量为0,显示已接通,却充不上电 17035
  • Tomcat启动startup.bat一闪而过就消失的原因和解决方法 11203
  • Linux下安装Eclipse超详细———大数据平台总结 9545
  • MapReduce体系架构和工作流程 4901

分类专栏

  • 实际操作 2篇
  • 概念阐述 3篇
  • 操作hbase 1篇
  • hbase 1篇
  • hadoop 1篇

最新评论

  • 电脑电量为0,显示已接通,却充不上电

    JUNJUN primer plus: 我的电脑是华硕,也是天气冷,吹风机热风筒猛吹一阵就好了

  • 电脑电量为0,显示已接通,却充不上电

    �安�: 第二种方法无敌 亲测 其他方法都试了没用

  • HBase编程实训,shell命令以及Java API实现

    ctotalk: 学习

  • 电脑电量为0,显示已接通,却充不上电

    Linux_driver_dvlp: 第二种方法太好用了,关机,然后长按电源键10秒以上, 就可以了。我的机子:雷神,同样适用。 我坐火车回来的时候,笔记本一直放行李箱里,又是冬天零下几度,应该是太冷了,自动保护了。

  • 电脑电量为0,显示已接通,却充不上电

    Rango Gym: 我现在也是这个问题,请问该怎么解决呢

大家在看

  • 基于Springboot的课程答疑系统(有报告)。Javaee项目,springboot项目。 313
  • Python | Leetcode Python题解之第502题IPO 100
  • Lucas带你机器学习实战——KNN预测未来的爆品
  • 学习日记_241023_高等数学中的一些英语表达 157
  • 波浪理论、江恩理论、价值投资的结合 1682

最新文章

  • 电脑换硬盘后出现error:no boot disk has been detected or the disk has failed怎么办
  • MapReduce执行及输入和输出过程
  • Eclipse中MapReduce配置、应用以及Haoop的数据类型
2020年22篇
2019年1篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lqcStar

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家玻璃钢雕塑行业宿州水果玻璃钢雕塑供应商商场美陈优选青岛 程通鹰潭学校玻璃钢雕塑多少钱河南玻璃钢抽象景观雕塑价格郑州玻璃钢雕塑定制厦门找玻璃钢孔子雕塑重庆玻璃钢雕塑定制广东商场创意商业美陈作品湛江玻璃钢人物雕塑销售通辽玻璃钢景观雕塑吴川玻璃钢十二生肖雕塑合肥火烈鸟玻璃钢雕塑定做校园玻璃钢雕塑报价表义乌学校玻璃钢雕塑许昌玻璃钢雕塑定做价格四平佛像玻璃钢雕塑欧式玻璃钢雕塑图片知名的玻璃钢花盆上海季节性商场美陈销售企业保质保量的玻璃钢花盆批发西山区玻璃钢雕塑加工公司玻璃钢雕塑凳子定做商场中秋活动打卡美陈玻璃钢雕塑表面做旧忻州玻璃钢海豚雕塑玻璃钢花盆工艺介绍重庆公园玻璃钢雕塑公司玻璃钢雕塑有什么特征丹东玻璃钢雕塑制作厂家香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化