flume作用,功能,相关处理流程

2 篇文章 0 订阅
订阅专栏

科普:Flume是啥?干嘛用的?

别再抱怨缺乏算法实践场景,不妨来挑战这场百万奖池的比赛!

来源 | http://r6d.cn/bdvqa

Flume简介

Flume概述:

Flume是开源日志系统。是一个 分布式、可靠性和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,FLume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。

Flume是什么?

Flume是流式日志采集工具,FLume提供对数据进行简单处理并且写到各种数据接收方(可定制)的能力,Flume提供从本地文件(spooling directory source)、实时日志(taildir、exec)、REST消息、Thift、Avro、Syslog、Kafka等数据源上收集数据的能力。

Flume能干什么?
  • 提供从固定目录下采集日志信息到目的地(HDFS,HBase,Kafka)能力。

  • 提供实时采集日志信息(taidir)到目的地的能力。

  • FLume支持级联(多个Flume对接起来),合并数据的能力。

  • Flume支持按照用户定制采集数据的能力。

Flume在FusionInsight中的位置:

位置

图:Flume在FusionInsight中的位置

Flume是收集、聚合事件流数据的分布式框架。

Flume系统架构

Flume基础架构:

基础架构

图:Flume基础架构图

Flume基础架构:Flume可以单节点直接采集数据,主要应用于集群内数据。

Flume多agent架构:

多agent架构

图:Flume多agent架构

Flume多agent架构:Flume可以将多个节点连接起来,将最初的数据源经过收集,存储到最终的存储系统中。主要应用于集群外的数据导入到集群内。

Flume架构:

架构

图:Flume架构图

各组件具体介绍如下:

  • events:Flume当中对数据的一种封装。是一个数据单元。flume传输数据最基本的单元。

  • Interceptor:拦截器,主要作用是将采集到的数据根据用户的配置进行过滤和修饰。

  • Channel Selector:通道选择器,主要作用是根据用户配置将数据放到不同的Channel当中。

  • Channel:主要作用是临时的缓存数据。

  • Sink Runner:sink的运行器,主要是通过它来驱动Sink Processor,Sink Processor驱动Sink来从Channel当中获取数据。

  • Sink Processor:主要策略有,负载均衡,故障转移以及直通。

  • Sink:主要作用是从Channel当中取出数据,并将数据放到不同的目的地。

基本概念- Source:

Source负责接收events或通过特殊机制产生events,并将events批量放到一个或多个Channels。有驱动和轮询2中类型的Source。

  • 驱动型Source:是外部主动发送数据给Flume,驱动Flume接收数据。

  • 轮询source:是FLume周期性主动去获取数据。

Source必须至少和一个channel关联。

Source的类型如下:

Source类型

基本概念 - Channel:

Channel位于Source和Sink之间,Channel的作用类似队列,用于临时缓存进来的events,当Sink成功地将events发送到下一跳的channel或最终目的,events从Channel移除。

不同的Channel提供的持久化水平也是不一样的:

  • Memory Channel:不会持久化。消息存放在内存中,提供高吞吐,但提供可靠性;可能丢失数据。

  • File Channel:对数据持久化;基于WAL(预写式日志Write-Ahaad Log)实现。但是配置较为麻烦,需要配置数据目录和checkpoint目录;不同的file channel均需要配置一个checkpoint目录。

  • JDBC Channel:基于嵌入式Database实现。内置derby数据库,对event进行了持久化,提供高可靠性;可以取代同样持久特性的file channel。

Channels支持事物,提供较弱的顺序保证,可以连接任何数量的Source和Sink。

基本概念 - Sink:

Sink负责将events传输到下一跳或最终目的,成功完成后将events从channel移除。

必须作用于一个确切的channel。

Sink类型:

Sink类型

Flume关键特性介绍

Flume支持采集日志文件:

Flume

图:Flume采集日志文件

Flume支持将集群外的日志文件采集并归档到HDFS、HBase、Kafka上,供上层应用对数据分析、清洗数据使用。

Flume支持多级级联和多路复制:

级联

图:Flume级联

Flume支持将多个Flume级联起来,同时级联节点内部支持数据复制。

这个场景主要应用于:收集FusionInsight集群外上的节点上的日志,并通过多个Flume节点,最终汇聚到集群当中。

Flume级联消息压缩、加密:

压缩

图:Flume级联消息压缩、加密

Flume级联节点之间的数据传输支持压缩和加密,提升数据传输效率和安全性。

在同一个Flume内部进行传输时,不需要加密,为进程内部的数据交换。

Flume数据监控:

监控

图:Flume数据监控

Source接收的数据量,Channel缓存的数据量,Sink写入的数据量,这些都可以通过Manager图形化界面呈现出来。

Flume传输可靠性:

可靠

图:Flume传输可靠性原理

Flume在传输数据过程中,采用事物管理方式,保证数据传输过程中数据不会丢失,增强了数据传输的可靠性,同时缓存在channel中的数据如果采用了file channel,进程或者节点重启数据不会丢失。

出错

图:Flume传输过程中出错情况

Flume在传输数据过程中,如果下一跳的Flume节点故障或者数据接收异常时,可以自动切换到另外一路上继续传输。

Flume传输过程中数据过滤:

过滤

图:过滤原理 Flume在传输数据过程中,可以见到的对数据简单过滤、清洗,可以去掉不关心的数据,同时如果需要对复杂的数据过滤,需要用户根据自己的数据特殊性,开发过滤插件,Flume支持第三方过滤插件调用

往期推荐

996、过劳死都见过了!“被猝死”还是头一回......

别再抱怨缺乏算法实践场景,不妨来挑战这场百万奖池的比赛!

坑你没商量!盘点Java中最常见的事故现场,你都中过哪些招?

你真的了解 OpenJDK 吗?

坚决不给中国人发Offer的GitLab成立中国公司!立志3-5年上市,怕是闻到了韭菜香?

如果你喜欢本文,欢迎关注我,订阅更多精彩内容

关注我回复「加群」,加入Spring技术交流群

免费领取:斯坦福决策算法

喜欢的这里报道

↘↘↘

</article>
1.Flume概念,功能,架构
风不止步的博客
10-26 468
1.Flume介绍 Flume是一种分布式、可靠且可用的服务,用于有效地收集、聚合和移动大量日志数据。它是基于流数据的灵活架构。它具有高可靠性机制和许多故障转移及恢复机制,具有强大的容错能力。它使用简单的可扩展数据模型,允许在线分析应用程序。 2.Flume架构 Flume-ng只有一个角色的节点:Agent角色。Agent角色有Source、Channel、Sink组成。 So...
Flume功能简介
qq_31569207的博客
07-11 5118
优点:flume是一种分布式、可靠以及高可用的海量日志采集、聚合和传输的系统。功能:支持在日志系统中定制各类数据发送方,用于收集数据;同时可提供对数据进行简单处理,并具有写到各种数据接收方(HDFS、Hbase等)的能力。结构:Agent主要由:source,channel,sink三个组件组成。          source:从数据发生器接收数据,并将接的数据以flume的event格式传递给...
Flume(三十二)Flume的执行流程
最新发布
技术博客
08-09 486
根据 Flume 的架构原理,Flume 是不可能丢失数据的,其内部有完善的事务机制, Source 到 Channel 是事务性的,Channel 到 Sink 是事务性的,因此这两个环节不会出现数 据的丢失,唯一可能丢失数据的情况是 Channel 采用 memoryChannel,agent 宕机导致数据 丢失,或者 Channel 存储数据已满,导致 Source 不再写入,未写入的数据丢失。用户也可以根据自己的数据处理需求,自己开发自定义拦截器,这也是Flume的一个可以用来自定义扩展的接口。
flume作用
bandi4506的博客
02-26 323
传输文件到hadoop,从日志收集服务器 虽然这些scp就能完成,但是,scp怎么保证任务中断,负载均衡,状态查看。。。 flume能帮你做到这些,好强大啊,这个框架 转载于:https://www.cnblogs.com/arthurLance/p/10441019.html...
flume的原理和使用
nxcjh321的专栏
03-13 926
摘自:http://www.superwu.cn/2013/12/04/870/ 概述   flume是cloudera公司的一款高性能、高可能的分布式日志收集系统。 flume的核心是把数据从数据源收集过来,再送到目的地。为了保证输送一定成功,在送到目的地之前,会先缓存数据,待数据真正到达目的地后,删除自己缓存的数据。 flume传输的数据的基本
Flume 简介及基本使用
黑白影的博客
06-07 613
一、Flume简介 Apache Flume是一个分布式,高可用的数据收集系统。它可以从不同的数据源收集数据,经过聚合后发送到存储系统中,通常用于日志数据的收集。Flume 分为 NG 和 OG (1.0 之前)两个版本,NG在OG的基础上进行了完全的重构,是目前使用最为广泛的版本。下面的介绍均以NG为基础。 二、Flume架构和基本概念 下图为Flume的基本架构图: 2.1 基本架构 外...
flume自定义功能实现代码
12-12
总之,Flume 的自定义功能使得我们可以根据实际需求定制数据流处理流程,从而充分发挥其在大数据处理中的作用。通过阅读提供的文章和利用 `flume-ng-core5` 相关库,开发者可以深入理解并实现 Flume 的自定义功能,...
flume-kafka流程
11-20
### Flume-Kafka集成流程详解 #### 一、Flume与Kafka简介 - **Flume**:Flume是一款高可靠、高性能的日志采集、聚合和传输系统,支持在日志系统中定制各类数据发送方无缝地接入。 - **Kafka**:Kafka是一个分布式...
Flume 基础概述(体系架构、执行流程、事务)
XIATWO
02-09 3269
Flume 基础概述 概述 概念 Flume是一个分布式、可靠、和高可用的海量日志聚合的系统 Flume 官网 作用 1、支持在系统中定制各类数据发送方,用于收集数据 2、同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 应用场景 1、线上数据一般主要是落地(存储到磁盘)或者通过socket传输给另外一个系统 2、这种情况下,你很难推动线上应用或服务去修改接口,实现直接向kafka里写数据 3、这时候你可能就需要flume这样的系统帮你去做传输。 Flume的体
flume介绍与原理
01-27
近年来,随着Flume的持续优化和新版本的发布,尤其是Flume-ng的出现,其功能不断增强,用户友好性显著提升,现已成为Apache顶级项目之一。 Flume的核心是将来自不同数据源的日志或事件数据高效地汇聚并存储到集中式...
实战Flume基础
05-13
Flume中的事务处理涉及到事务对象(Transaction)的使用,其操作流程包括获取事务、进行操作、提交事务以及异常处理和事务关闭。 在多层Agent的数据收集场景下,Flume采用handoff机制来处理数据传输,即一个Agent会...
Flume详细介绍使用
09-06
介绍了关于flume的基本应用架构和内部工作机制以及使用业务场景!
Flume使用简介
Aurora Silent
07-07 872
flume是分布式的日志收集系统,把收集来的数据传送到目的地去。 flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。 agent里面包含3个核心组件:source、channel、sink。3.1 source组件是专用于收集日志的,可以处理各种类型各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、ne
Flume 事务处理过程详解
小猿天地
05-10 453
Flume 事务过程详解 主要事务处理过程: 1、Web Server :读数据,通过端口,本地文件读入数据。读取文件时有单个上传、批量上传以及断点续传模式。 2、Source :读数据,并将数据封装成事件。Source 将事务主动推入 Channel 中,而 Sink 是拉取事务。 3、Put 事务流程 doPut : 将批数据先写入临时缓冲区 putList doCommit : 检查 channel 内存队列是否足够合并 doRollBack : channel 内存队列空间不足,回滚数据 4、
flume简介
ping的博客
06-20 428
flume简介flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,  并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。  flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Event由A...
Flume概述
Sun's Blog
10-13 704
文章目录Flume定义Flume基础架构AgentSourceSinkChannelEventFlume的核心概念 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 Flume基础架构 Agent Agent是一个JVM进程,它以事件的形式将数据从源头送至目的。 Agent主要有3个部分组成,Source、Channel、Sink。 Source Source是负责接收数据到Flume Agent的组件。
Flume使用(一)
Xlucas的博客
01-01 562
flume 使用简单使用flume 场景1: 1、通过netcat发布消息 2、用flume接收netcat发布的消息,最终显示在终端 3、flume的channels是用内存存储的先定义flume-conf.properties.log 这样的文件#定义agent的配置 定义sources 定义channels 定义sinks a1.sources = r1 a1.sinks = k1
Flume使用
Simmu
04-22 295
r1.sources = source1 r1.channels = channel1 r1.sinks = sink1 r1.sources.source1.type = netcat r1.sources.source1.bind = localhost r1.sources.source1.port = 8888 r1.sources.source1.ch
数据处理流程
LearnboC的博客
07-26 1273
流程图解析   典型的BI系统体流程如下:   由于是处理海量数据,流程中各环节所使用的技术则跟传统BI完全不同,后续课程都会一一讲解:   1) 数据采集:定制开发采集程序,或使用开源框架FLUME   2) 数据预处理:定制开发mapreduce程序运行于hadoop集群   3) 数据仓库技术:基于hadoop之上的Hive   4) 数据导出:基
写文章

热门文章

  • Linux基础知识大全(持续更新) 40373
  • 关于Hadoop下载慢的解决办法 6280
  • Ubuntu-Docker安装和使用 5681
  • flume作用,功能,相关处理流程 3260
  • Hadoop集群ssh免密登录 3025

分类专栏

  • 编程语言(大数据基础)
  • Python爬虫 1篇
  • Linux操作系统 3篇
  • 机器学习
  • Flume 2篇
  • Hadoop生态圈组件 1篇
  • Hive
  • Kafka
  • Zookeeper
  • MapReduce
  • Hadoop
  • 大数据基础 2篇

最新评论

  • Docker Compose部署【Docker】

    CSDN-Ada助手: 云原生入门 技能树或许可以帮到你:https://edu.csdn.net/skill/cloud_native?utm_source=AI_act_cloud_native

  • 最全Flume常用配置文件详情解析

    LiYingNing: 做得很好

  • Ubuntu-Docker安装和使用

    wenli7363: cnd, 一坨

  • Linux基础知识大全(持续更新)

    小猿天地: https://blog.csdn.net/weixin_43935266/article/details/119877322 linux语言基础学习可以互补表情包

  • Linux基础知识大全(持续更新)

    小猿天地: https://blog.csdn.net/weixin_43935266/article/details/119877322 linux万字文档基础学习,大家一起学表情包

大家在看

  • Java | Leetcode Java题解之第503题下一个更大元素II
  • Golang | Leetcode Golang题解之第504题七进制数
  • Java | Leetcode Java题解之第502题IPO 186
  • 相对路径与绝对路径和os模块 698
  • Golang | Leetcode Golang题解之第502题IPO 156

最新文章

  • Java SE 入门到精通—5.内部类与匿名类【Java】
  • Java SE 入门到精通—4.抽象类与接口【Java】
  • Java SE 入门到精通—面向对象【Java】
2024年7篇
2023年8篇
2022年9篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家长沙玻璃钢雕塑制造徐州玻璃钢雕塑设计与制作玻璃钢雕塑技术培训梅州玻璃钢卡通雕塑厂家直销酒桶玻璃钢花盆玻璃钢 蘑菇雕塑巩义商业玻璃钢雕塑玻璃钢花盆哪家服务好池州玻璃钢雕塑生产厂家通用玻璃钢雕塑摆件市场报价江苏特色商场美陈售价广州玻璃钢雕塑彩绘连云港玻璃钢花盆花器优惠的玻璃钢造型雕塑灵宝商场美陈玻璃钢园林雕塑报价天水动物玻璃钢雕塑哪家好玻璃钢花盆简笔画表情商场美陈保险贵州抽象玻璃钢雕塑销售厂家泰安玻璃钢花盆长沙欧式玻璃钢雕塑供应商生产玻璃钢动物雕塑规格泰安广场玻璃钢雕塑厂家越秀区历史玻璃钢人物雕塑广汉玻璃钢景观雕塑梅州玻璃钢雕塑厂超时空美陈商场德州玻璃钢小狗雕塑北京大型主题商场美陈供货商香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化