一文看懂大数据生态圈完整知识体系(建议收藏)

1 篇文章 0 订阅
订阅专栏

目录

收起

01 数据采集技术框架

02 数据存储技术框架

03 分布式资源管理框架

04 数据计算技术框架

a. 离线数据计算

b. 实时数据计算

05 数据分析技术框架

06 任务调度技术框架

07 大数据底层基础技术框架

08 数据检索技术框架

09 大数据集群安装管理框架

一文看懂大数据生态圈完整知识体系(建议收藏)

随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,希望能通过本文帮助大家快速构建大数据生态圈的完整知识体系。

目前大数据生态圈中的核心技术总结下来如图1所示,分为以下9类,下面分别介绍。

大数据生态下9类核心技术

01 数据采集技术框架

数据采集也被称为数据同步。随着互联网、移动互联网、物联网等技术的兴起,产生了海量数据。这些数据散落在各个地方,我们需要将这些数据融合到一起,然后从这些海量数据中计算出一些有价值的内容。此时第一步需要做的是把数据采集过来。

数据采集是大数据的基础,没有数据采集,何谈大数据!

数据采集技术框架包括以下几种:

  • Flume、Logstash和FileBeat常用于日志数据实时监控采集,它们之间的细节区别见表1:

Flume、Logstash、FileBeat的区别

  • Sqoop和Datax常用于关系型数据库离线数据采集,它们之间的细节区别见表2:

Sgoop和DataX的区别

  • Cannal和Maxwell常用于关系型数据库实时数据采集,它们之间的细节区别见表3:

Cannal和Maxwell区别

Flume、Logstash和FileBeat的技术选型如图2所示:

Flume、Logstash和FileBeat的技术选型

Sqoop和Datax之间的技术选型如图3所示:

Sqoop和Datax之间的技术选型

Cannal和Maxwell之间的技术选型如图4所示:

Cannal和Maxwell之间的技术选型

02 数据存储技术框架

数据的快速增长推动了技术的发展,涌现出了一批优秀的、支持分布式的存储系统

数据存储技术框架包括HDFS、HBase、Kudu、Kafka等。

  • HDFS它可以解决海量数据存储的问题,但是其最大的缺点是不支持单条数据的修改操作,因为它毕竟不是数据库。
  • HBase是一个基于HDFS的分布式NoSQL数据库。这意味着,HBase可以利用HDFS的海量数据存储能力,并支持修改操作。但HBase并不是关系型数据库,所以它无法支持传统的SQL语法。
  • Kudu是介于HDFS和HBase之间的技术组件,既支持数据修改,也支持基于SQL的数据分析功能;目前Kudu的定位比较尴尬,属于一个折中的方案,在实际工作中应用有限。
  • Kafka常用于海量数据的临时缓冲存储,对外提供高吞吐量的读写能力。

03 分布式资源管理框架

在传统的IT领域中,企业的服务器资源(内存、CPU等)是有限的,也是固定的。但是,服务器的应用场景却是灵活多变的。

例如,今天临时上线了一个系统,需要占用几台服务器;过了几天,需要把这个系统下线,把这几台服务器清理出来。

在大数据时代到来之前,服务器资源的变更对应的是系统的上线和下线,这些变动是有限的。

随着大数据时代的到来,临时任务的需求量大增,这些任务往往需要大量的服务器资源。如果此时还依赖运维人员人工对接服务器资源的变更,显然是不现实的。因此,分布式资源管理系统应运而生,常见的包括YARN、Kubernetes和Mesos,它们的典型应用领域如图5所示。

YARN、Kubernetes和Mesos

04 数据计算技术框架

数据计算分为离线数据计算和实时数据计算。

a. 离线数据计算

大数据中的离线数据计算引擎经过十几年的发展,到目前为止主要发生了3次大的变更。

  • MapReduce可以称得上是大数据行业的第一代离线数据计算引擎,主要用于解决大规模数据集的分布式并行计算。MapReduce计算引擎的核心思想是,将计算逻辑抽象成Map和Reduce两个阶段进行处理。
  • Tez计算引擎在大数据技术生态圈中的存在感较弱,实际工作中很少会单独使用Tez去开发计算程序。
  • Spark最大的特点就是内存计算:任务执行阶段的中间结果全部被放在内存中,不需要读写磁盘,极大地提高了数据的计算性能。Spark提供了大量高阶函数(也可以称之为算子),可以实现各种复杂逻辑的迭代计算,非常适合应用在海量数据的快速且复杂计算需求中。

b. 实时数据计算

业内最典型的实时数据计算场景是天猫“双十一”的数据大屏。数据大屏中展现的成交总金额、订单总量等数据指标,都是实时计算出来的。用户购买商品后,商品的金额就会被实时增加到数据大屏中的成交总金额中。

  • Storm主要用于实现实时数据分布式计算。
  • Flink属于新一代实时数据分布式计算引擎,其计算性能和生态圈都优于Storm。
  • Spark中的SparkStreaming组件也可以提供基于秒级别的实时数据分布式计算功能。

他和Storm、Flink之间的区别见表4。

Storm、Flink、SparkStreaming的区别

Storm、Spark、Flink 之间的技术选型如图6所示。

Storm、Spark、Flink 之间的技术选型

目前企业中离线计算主要使用Spark,实时计算主要使用Flink。

05 数据分析技术框架

数据分析技术框架包括Hive、Impala、Kylin、Clickhouse、Druid、Drois等,它们的典型应用场景如图7所示。

数据分析技术框架的典型应用场景

Hive、Impala和Kylin属于典型的离线OLAP数据分析引擎,主要应用在离线数据分析领域,它们之间的区别见表5。

表5

  • Hive的执行效率一般,但是稳定性极高;
  • Impala基于内存可以提供优秀的执行效率,但是稳定性一般;
  • Kylin通过预计算可以提供PB级别数据毫秒级响应。

Clickhouse、Druid和Drois属于典型的实时OLAP数据分析引擎,主要应用在实时数据分析领域,它们之间的区别见表6。

Clickhouse、Druid和Drois区别

  • Druid和Doris是可以支持高并发的,ClickHouse的并发能力有限;Druid中的SQL支持是有限的,ClickHouse支持非标准SQL,Doris支持标准SQL,对SQL支持比较好。
  • 目前Druid和ClickHouse的成熟程度相对比较高,Doris处于快速发展阶段。

06 任务调度技术框架

任务调度技术包括Azkaban、Ooize、DolphinScheduler等。它们适用于普通定时执行的例行化任务,以及包含复杂依赖关系的多级任务进行调度,支持分布式,保证调度系统的性能和稳定性,它们之间的区别见表7。

区别

它们之前的技术选型如图8所示。

选型

07 大数据底层基础技术框架

大数据底层基础技术框架主要是指Zookeeper。

Zookeepe主要提供常用的基础功能(例如:命名空间、配置服务等),大数据生态圈中的Hadoop(HA)、HBase、Kafka等技术组件的运行都会用到Zookeeper。

08 数据检索技术框架

随着企业中数据的逐步积累,针对海量数据的统计分析需求会变得越来越多样化:不仅要进行分析,还要实现多条件快速复杂查询。例如,电商网站中的商品搜索功能,以及各种搜索引擎中的信息检索功能,这些功能都属于多条件快速复杂查询的范畴。

在选择全文检索引擎工具时,可以从易用性、扩展性、稳定性、集群运维难度、项目集成程度、社区活跃度这几个方面进行对比。Lucene、Solr和Elasticsearch的对比见表8。

Lucene、Solr和Elasticsearch的对比

09 大数据集群安装管理框架

企业如果想从传统的数据处理转型到大数据处理,首先要做就是搭建一个稳定可靠的大数据平台。

一个完整的大数据平台需要包含数据采集、数据存储、数据计算、数据分析、集群监控等功能,这就意味着其中需要包含Flume、Kafka、Haodop、Hive、HBase、Spark、Flink等组件,这些组件需要部署到上百台甚至上千台机器中。

如果依靠运维人员单独安装每一个组件,则工作量比较大,而且需要考虑版本之间的匹配问题及各种冲突问题,并且后期集群维护工作也会给运维人员造成很大的压力。

于是,国外一些厂商就对大数据中的组件进行了封装,提供了一体化的大数据平台,利用它可以快速安装大数据组件。目前业内最常见的是包括CDH、HDP、CDP等。

  • HDP:全称是 Hortonworks Data Platform。它由 Hortonworks 公司基于 Apache Hadoop 进行了封装,借助于 Ambari 工具提供界面化安装和管理,并且集成了大数据中的常见组件, 可以提供一站式集群管理。HDP 属于开源版免费大数据平台,没有提供商业化服务;
  • CDH:全称是 Cloudera Distribution Including Apache Hadoop。它由 Cloudera 公司基于 Apache Hadoop 进行了商业化,借助于 Cloudera Manager 工具提供界面化安装和管理,并且集成了大数据中的常见组件,可以提供一站式集群管理。CDH 属于商业化收费大 数据平台,默认可以试用 30 天。之后,如果想继续使用高级功能及商业化服务,则需要付费购买授权,如果只使用基础功能,则可以继续免费使用;
  • CDP:Cloudera 公司在 2018 年 10 月份收购了 Hortonworks,之后推出了新一代的大数据平台产品 CDP(Cloudera Data Center)。CDP 的版本号延续了之前 CDH 的版本号。从 7.0 版本开始, CDP 支持 Private Cloud(私有云)和 Hybrid Cloud(混合云)。CDP 将 HDP 和 CDH 中比较优秀的组件进行了整合,并且增加了一些新的组件。

三者的关系如图9所示。

HDP、CDH、CDP区别

以上内容出自于《大数据技术及架构图解实战派》一书。

浅谈大数据生态圈.pptx
06-22
浅谈大数据生态体系 Talking about big data ecosystem 浅谈大数据生态圈全文共22页,当前为第1页。 浅谈大数据生态圈全文共22页,当前为第2页。 何为大数据 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。 大数据的特点: 一是数据体量巨大。至少是PB级别以上量级的数据 二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。 三是处理速度快。数据处理遵循"1秒定律",可从各种类型的数据中快速获得高价值的信息。 四是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。 浅谈大数据生态圈全文共22页,当前为第3页。 大数据,首先你要能存的下大数据 传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。 比如你说我要获取/hdfs/tmp/file1的数据,你引用的是
2024年大数据最全浅谈大数据生态,还没吃透内存缓存LruCache实现原理的看这篇文章
2401_84182507的博客
05-13 850
这就好比你有了汇编语言,虽然你几乎什么都能干了,但是你还是觉得繁琐。你希望有个更高层更抽象的语言层来描述算法和数据处理流程。于是就有了。Pig是接近脚本方式去描述MapReduce,Hive则用的是SQL。它们把脚本和SQL语言翻译成MapReduce程序,丢给计算引擎去计算,而你就从繁琐的MapReduce程序中解脱出来,用更简单更直观的语言去写程序了。有了Hive之后,人们发现SQL对比Java有巨大的优势。一个是它太容易写了。
(一)大数据生态圈
最新发布
m0_69865456的博客
08-31 1896
大数据
大数据之Hadoop生态圈
J_fovik_R0407的博客
06-30 1255
HDFS是整个Hadoop体系的基础,负责数据的存储与管理,Hdfs有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序。
大数据生态圈简介
weixin_47726676的博客
12-03 7034
大数据平台架构大致可分为五个层级。 顶层为应用层,提供数据服务与可视化,解决企业实际问题。 第二层是大数据处理核心,包括数据处理、交互式分析以及机器学习与数据挖掘。 第三层是资源调度,为了充分利用系统资源,提高全系统的资源利用率以及增强系统扩展性,需要进行统一的资源管理与调度。 第四层是数据存储,如何解决海量数据的读写问题,是实现大数据平台的构建的基础。 第五层是数据获取,快速、高效获取到海量信息是大数据的前提。
大数据技术生态圈简介
IT深耕十余载,大道之简
05-15 622
此外,大数据技术生态圈还包括一些其他重要的组成部分,如资源调度层(用于管理和调度系统资源)、数据安全保障层(用于保护用户数据的安全和隐私)等。这些组成部分共同构成了大数据技术生态圈的基础架构,为大数据技术的应用和发展提供了有力支持。大数据技术生态圈是一个复杂且庞大的系统,涉及数据的收集、存储、处理、分析和应用等多个环节。
大数据---生态圈总结
lipviolet的博客
03-11 3037
hadoop 1,数据越来越大,尤其是搜索引擎公司,数据的类别---分为三种,结构型,非结构型,半结构型,对应产生的数据库,关系型数据库,非关系型数据库;数据的来源---自己公司业务,爬虫(网络),购买(第三方交易);数据的处理---缺失字段,重要补全,不重要删除,隐私字段则脱敏 2,谷歌三篇论文 GFS(google filesystem)、产生了hdfs,解决海量数据存储;MAPREDU...
一文动力电池的基础知识
01-14
新能源汽车三大(电池、电机、电控)技术,对主机厂工程师而言,动力电池知识是必须要知道的。但是目前许多工程师对动力电池知识了解甚少,主要原因是,动力电池是电化学领域的,而汽车学院的没有这个课程。下面做一些...
汽车电子中的一文动力电池的基础知识
10-15
新能源汽车三大(电池、电机、电控)核心技术,对主机厂工程师而言,动力电池知识是必须要知道的。但是目前许多工程师对动力电池知识了解甚少,主要原因是,动力电池是电化学领域的,而汽车学院的没有这个课程。下面做...
大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
gridmix is not mix
01-05 1300
Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门   1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 具有可靠、高效、可伸缩的特点。 Hadoop的核心是YARN,HDFS和Mapreduce
大数据生态圈常用组件(二),BTAJ大厂最新面试题汇集
bq520111的博客
03-21 570
Spark可以使用自带的集群模式运行,也可以在EC2、在Hadoop Yarn上、Mesos上或Kubernetes上运行,同时可以访问HDFS、Alluxio、Cassandra、HBase、Hive及其它上百种数据源中的数据。支持6+种数据源,覆盖MySQL,Hive,HBase,Presto,HDFS等;包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然没有那么全面,但是对于入门来说是没问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。
浅谈大数据生态
qq_38294275的博客
03-08 1146
关于:那头会飞起来的大象。
大数据Hadoop生态圈介绍
热门推荐
葱葱那年
07-12 5万+
大数据Hadoop生态圈-组件介绍 Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示: 根据服务对象和层次分为:数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务...
一文大数据生态圈完整知识体系大数据技术及架构图解实战派】
大数据技术博客
08-03 7316
一文大数据生态圈完整知识体系,包含Hadoop、Spark、Flink、Kafka、Elasticsearch、数据仓库等内容。
大数据技术生态体系
扛麻袋的少年的博客
10-16 1822
1.大数据技术生态体系
一文了解数据治理全知识体系
LuckyTHP
07-21 2363
数据治理
面试必备:一文DNS:网络知识扫盲
网络知识扫盲,一文DNS,是求职面试中不容忽视的基础考察内容。DNS(Domain Name System),即域名解析系统,是互联网通信的核心组成部分,它将人类易于记忆的域名转换为机器可理解的IP地址,使得我们在浏览器中...
写文章

热门文章

  • 经典的5种架构模型 683
  • (软考高项)信息系统项目管理师重要知识点-14.绩效域 630
  • (软考高项)信息系统项目管理师重要知识点-12.配置与变更管理 435
  • (软考高项)信息系统项目管理师重要知识点-9.干系人管理 334
  • 信息系统项目管理师(软考高项)高分通过经验 328

分类专栏

  • 软考高项 17篇
  • 大数据 1篇
  • 可靠性 1篇
  • 架构设计学习笔记 1篇

最新评论

  • 信息系统项目管理师(软考高项)高分通过经验

    CSDN-Ada助手: 恭喜您在软考高项中取得高分通过!阅读了您的经验分享,受益匪浅。希望您能继续分享更多关于信息系统项目管理师的经验和心得体会,或者可以结合实际案例进行深入探讨,让更多人受益。同时也期待您能够拓展更多相关领域的内容,让我们一起共同学习进步吧! CSDN 正在通过评论红包奖励优秀博客,请看红包流:https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

  • 经典的5种架构模型

    CSDN-Ada助手: 非常棒的博客!你对经典的5种架构模型进行了很好的介绍。我鼓励你继续创作,分享更多有关架构设计的知识。 除了你提到的5种架构模型,还有一些扩展的知识和技能可以与之相关。例如,可以了解更多关于微服务架构和事件驱动架构的内容。微服务架构将大型应用程序拆分为小的、自治的服务,这样可以提高开发效率和可伸缩性。而事件驱动架构则强调组件之间通过事件进行通信,以实现松耦合和可扩展性。 希望你能继续分享你对架构设计的见解,并且不断学习和探索更多相关的知识和技能。谦虚地说,架构设计是一个广阔而深奥的领域,我们都有很多可以学习的地方。期待看到你的下一篇博客! 如何写出更高质量的博客,请看该博主的分享:https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

  • Python包---numpy1
  • 2024年华为OD机试真题-最长连续子序列-Python-OD统一考试(E卷)
  • 51单片机-定时器/计数器和中断系统 学习笔记(详解) 138
  • Python进阶3 631
  • 基于node.js+vue会议室签到小程序(开题+程序+论文)计算机毕业设计

最新文章

  • (程序员必知)97 Things Every Programmer Should Know
  • (软考高项)信息系统项目管理师重要知识点-14.绩效域
  • (软考高项)信息系统项目管理师重要知识点-13.测试管理
2023年22篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家安徽抽象玻璃钢雕塑定做价格玻璃钢园林雕塑人物吉林创意玻璃钢雕塑市场浙江特色玻璃钢雕塑价位南昌玻璃钢雕塑多少钱怎么看雕塑是不是玻璃钢曲阳玻璃钢景观雕塑南京园林玻璃钢花盆玻璃钢人物雕塑超低价国庆中秋双节商场美陈眉山商场美陈玻璃钢雕塑地标长沙商场美陈雕塑公司玻璃钢果篮景观雕塑推荐品牌玻璃钢人物雕塑出厂价格通用玻璃钢雕塑摆件定制商场绿植美陈图片装饰商场美陈研发公司进口玻璃钢雕塑多少钱佳木斯小品系列玻璃钢雕塑定做青岛人物玻璃钢雕塑重庆大型玻璃钢雕塑图片漯河玻璃钢花盆雕塑孝昌玻璃钢花盆花器拉萨玻璃钢雕塑浮雕厂斗门玻璃钢雕塑鹤山玻璃钢雕塑设计长沙玻璃钢卡通雕塑定做厂家三门峡校园玻璃钢人物雕塑制造商镇江玻璃钢仿铜雕塑定制香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化