相关动态
大数据平台架构02_实时数据平台
2024-11-10 18:33

大数据和人工智能是天然的一对最佳搭档,尤其是在实时数据方面。实时数据训练的算法效果和离线数据训练的算法效果有着天壤之别,实时数据训练得到的算法用到的数据就是算法正式上线后输入的数据,因此准确性有保障,是算法工程师和业务的首选。

大数据平台架构02_实时数据平台

1.整体框架

[外链图片转存失败(img-Wsz3gmMr-1566876624131)(C:UserszhangzhenquanAppDataRoamingTypora	ypora-user-images1566872271259.png)]

(1)技术四件套

实时数据平台的支撑技术主要包含四个方面,目前主流的实时数据平台也都是基于这四个方面相关的技术搭建的。

实时数据采集(如Flume

消息中间件(如Kafka

流计算框架(如Strom 、Spark 、Flink 和Beam 等

实时数据存储(如列族存储的Hbase

(2)数据来源

实时数据平台首先要保证数据来源的实时性。数据来源通常可以分为两类

数据库 日志文件

对于前者,业界的最佳实践并不是直接访问数据库抽取数据,而是会直接采集 数据库变更日志气

(3)主要技术

实时数据处理通常采用某种流计算处理框架,实时数据平台最为核心的技术是流计算。目前使用最为广泛的是Storm (不仅指原生Storm ,还包含其他类Storm 框架如JStorm 、Storm Trident 等)、Spark 和Flink 等。

2.流计算特征

(1)特征

无边界:流计算的数据源头是源源不断的,就像河水一样不停地流过来,相应地,流计算任务也需要始终运行。

触发:不同于Hadoop 离线任务是定时调度触发,流计算任务的每次计算是由源头数据触发的。触发是流计算一个非常重要的概念,在某些业务场景下,触发消息的逻辑比较复杂,对流计算挑战很大。

延迟:很显然,流计算必须能够高效地、迅速地处理数据。不同于离线Hadoop 任务 至少以分钟甚至小时计的处理延迟,流计算的延迟通常在秒甚至毫秒级,分钟级别 的延迟只在有些特殊情况下才被接受。

历史数据: Hadoop 离线任务如果发现历史某天的数据有问题,通常很容易修复问题而且重运行任务,但是对于流计算任务来说基本不可能或者代价非常大,因为首先实时流消息通常不会保存很久(一般几天, 而且保存历史的完全现场基本不可能,所以实时流计算一般只能从问题发现的时刻修复数据,历史数据是无法通过流式方 式来补的。

(2)两种实现机制

模仿离线的批处理方式,也就是采用微批处理(即m ini batch ) 。微批处理带来了吞吐量的提升,但是相应的数据延迟也会增大,基本在秒级和分钟级,典型的技术是Spark Streaming 。

另一种是原生的消息数据,即处理单位是单条数据,早期原生的流计算技术延迟低(一般在几十毫秒,但是数据吞吐量有限,典型的是原生的Storm 框架,但是随着Flink 等技术的产生和发展, 吞吐量也不再是问题。

3.几个开源框架

Storm 是最早的流计算技术和框架,也是目前最广为所知的实时数据处理技术,但是实际上还有其他的开源流计算技术,如Storm Trident 、Spark Streaming 、Samza 、Flink 、Beam 等,商业性的技术还有Google MillWheel 和亚马逊的Kinesis 等。

(1)storm

Storm 是原生的流计算框架,数据一条一条被处理,所以其数据延迟可以非常低,基本在lOOms 之内,调优的情况下甚至可以到lOms 。但是相应地,代价就是处理性能,原生Storm 的数据吞吐量一般,而且它不提供高级API ,也不支持状态的管理。数据可靠性方面, Storm 不支持exactly once 的处理,只支持实时消息的at least once 处理。

(2)Storm Trident

Trident 是对原生Storm 的一个更高层次的抽象,其最大的特点是以mini batch 的形式进行流处理。同时,Trident 简化topology 构建过程,增加了窗口操作、聚合操作或者状态管理等高级操作API 。对应于Storm 提供的at most once 可靠性, Trident 还支持exactly once 可靠性。

(3)Spark Streaming

Spark 也是目前业界比较受欢迎也比较流行的实时数据处理方案,尤其对于采用Spark生态作为数据平台解决方案的公司或者组织来说。从本质上讲, Spark Streaming 也是基于微批处理的流计算框架,即它将源头数据分成很小的批井以类似于离线batch 的方式来处理这小部分数据。不同于Storm Trident 的是,Spark Streaming 微批处理框架底层依赖于Spark Core 的RDD 实现

(4)Flink

Flink 项目开始得非常早,大概是在2008 年,但是直到2016 年才日渐受到重视并变成Apache 的顶级项目。Flink 是原生的流计算处理框架,提供高级API 、状态管理、exactly once 可靠性等,同时数据处理吞吐量也很不错,从目前社区的发展来看, Flink 也非常有活力。

    以上就是本篇文章【大数据平台架构02_实时数据平台】的全部内容了,欢迎阅览 ! 文章地址:http://dgaty.xhstdz.com/news/5767.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://dgaty.xhstdz.com/mobile/ , 查看更多   
最新文章
揭秘刷神马SEO排名秘籍,轻松提升网站搜索地位!
深度解析刷神马SEO排名真相与策略,分享实用技巧,助力网站高效提升排名,轻松占领搜索引擎前列!随着互联网的快速发展,SEO(搜
亚马逊运营必备实用工具
常常看见有卖家小伙伴提问利用什么做数据分析、用什么选品等话题。这里强烈建议各位亚马逊卖家以及准备入驻亚马逊卖家的朋友收藏
如何打造一个高效的营销型企业网站,营销型企业网站的核心特点是什么
打造高效营销型企业网站,需关注用户体验、SEO优化、内容质量及数据分析。核心特点为:用户导向、易用性高、转化路径明确。如何
佛山专业SEO优化助力企业电商营销新飞跃
佛山商品SEO优化公司,凭借专业技术和丰富经验,为企业提供全方位互联网营销解决方案。通过精准关键词优化、内容营销、数据分析
ks秒单关注(快速秒单关注,提升用户转化率)
KS秒单关注是一种快速秒单关注的方法,旨在提升用户的转化率。这种方法通过一系列的策略和技巧,能够快速吸引用户的关注,并使他
密码技术应用员理论知识题及答案.docVIP
PAGEPAGE1密码技术应用员理论知识题及答案单选题1.密码系统试运行报告中,记录的每个问题均应具备唯一标识,其作用是()。A、描
外链自动增加:全面解析和战略规划198
引言外链是搜索引擎优化 (SEO) 至关重要的组成部分,可以提高网站在搜索结果页面 (SERP) 中的排名。然而,有时网站可能会经历外
OpenAI 与马斯克“恩怨”再升级!公开历史邮件,揭秘“控制权”争夺战
OpenAI 与马斯克的法律战已持续数月,核心争议点在于 OpenAI 是否背离了其最初的非营利使命,即让 AI 研究成果惠及所有人。上个
AI智能写作助手:一站式文案创作与优化解决方案,覆多种场景需求
1. 文案生成器是一款利用先进的人工智能技术帮助客户快速生成创意文案的工具。它免费采用可以按照使用者输入的关键词或主题,自
07 高性能系统架构设计
本课时讲解大家常听到的高性能系统架构。 高性能系统架构,主要包括两部分内容,性能测试与性能优化。性能优化又可
相关文章