大数据之亚秒级实时计算技术学什么?flink作业资源怎么评估? 全球信息
2023-06-12 15:05:02来源:产业经济网
大数据之亚秒级实时计算技术学什么?
新增亚秒级实时计算进阶课程课程分为十二个阶段学习:
第⼀阶段:⼤数据数据采集
本阶段属于⼤数据的核⼼数据采集部分,主要分为离线数据采集使⽤Sqoop框架,实时数据采集使⽤Flume及DataX等组件,对于MySQL或Oracle的实时数据需要使⽤ogg和cannal采集。
第⼆阶段:实时计算基础(NoSQL+消息中⼼)
本阶段是学习⼤数据的核⼼消息中间件。本阶段在于培养企业级海量数据场景下NoSQL⼤ 数据存储以及实时数据的消息队列相关的开发能⼒;
第三阶段:⼤数据实时OLAP框架
本阶段为⼤数据的核⼼实战课程,通过实时OLAP为实时数仓指标构建打下基础,主要分为ClickHouse和Doris企业应⽤⼴泛的OLAP技术。
第四阶段:实时计算基础(NoSQL+消息中⼼)
本阶段为企业级数据湖开发课程,以Hudi为主要开发⼯具,兼顾IceBerg和Datalake数据湖基础内容,完成湖上建仓的任务。
第五阶段:Flink技术栈
本阶段学习当下全球热⻔的亚秒级计算框架: Flink技术栈;Flink是⼀款分布式的内存迭代计算框架,其性能超出前代计算框架Spark;Flink计算框架是⽬前全球范围内热⻔的⼤数据体系下的计算框架(没有之⼀),是我们需要点学习的内容
第六阶段:FlinkSQL从原理到精通
FlinkSQL以SQL作为主要开发语⾔,摒弃了Java开发的冗余,使⽤SQL完成关键指标的统计计算是这部分核⼼内容。
第七阶段:实时项⽬1-物联⽹⾏业⼤数据实时项⽬
⻋联⽹项⽬来源于其实数据和业务场景,采⽤Flink技术栈,结合Hbase,HDFS等热⻔⼤数据组件,完成物联⽹或⻋企等数字化转型。
第⼋阶段:实时项⽬2-⾦融证券⾏业⼤数据实时项⽬
本阶段为⼤数据体系中实时数据处理⽅向的项⽬实战阶段。项⽬采⽤流处理计算引擎Flink,实时处理100万笔/s的交易数据基于企业主流的流处理技术框架:Flume、Kafka、Flink、Hbase等基于Hive和Kylin的批数据处理,可进⾏海ᰁ多维分析.搭建监察预警体系,包括:预警规则管理,实时预警,历史预警,监察历史数据分析等。
第九阶段:实时项⽬3-智慧出⾏实时项⽬
本阶段为⼤数据体系中出⾏⾏业实时数据处理⽅向的项⽬实战阶段。项⽬采⽤流处理计算引擎Flink,实时处理出⾏⾏业的实时数据,该项⽬基于企业主流的流处理技术框架:Flume、Kafka、Flink、Hbase等,可进⾏海ᰁ⻋辆和⽤户多维分析等。
第⼗阶段:实时项⽬4-基于湖仓⼀体的在线视频实时分析项⽬
本阶段为⼤数据在线视频实时数据处理⽅向的项⽬。项⽬采⽤流处理计算引擎Flink,实时处理千万数据ᰁ视频流数据,基于企业主流的流处理技术框架:Flume、Kafka、Flink、FlinkSQL等技术栈,可进⾏海ᰁ多维分析。最终实现搭建在线视频实时分析指标体系等。
第⼗⼀阶段:Flink源码剖析
Flink源码对于⽇常Flink⼆次开发具有⾮常重要的价值和意义,这⾥带着⼤家从Flink提交任务执⾏到Flink资源管理,分布式缓存等各⽅⾯带您深⼊了解Flink源码设计哲学。
第⼗⼆阶段:Flink⼆次开发
Flink⼆次开发主要针对于多个企业针对不同业务场景进⾏Flink计算引擎的封装或⼆次开发任务,皆在完成定制化企业任务需求,是每⼀位⼤数据开发⼯程师进阶提升技能必备。
IT⾏业在不断发展技术迭代⾮常频繁。博学⾕课程也在不断的根据⾏业动态实时更新课程内容。
flink作业资源怎么评估?
Flink 任务并行度合理行一般根据峰值流量进行压测评估,并且根据集群负载情况留一定量的 buffer 资源
1.⭐ 如果数据源已经存在,则可以直接消费进行测试
2.⭐ 如果数据源不存在,需要自行造压测数据进行测试
1.⭐ source 并行度配置:以 kafka 为例,source 的并行度一般设置为 kafka 对应的 topic 的分区数
2.⭐ transform(比如 flatmap、map、filter 等算子)并行度的配置:这些算子一般不会做太重的操作,并行度可以和 source 保持一致,使得算子之间可以做到 forward 传输数据,不经过网络传输
3.⭐ keyby 之后的处理算子:建议最大并行度为此算子并行度的整数倍,这样可以使每个算子上的 keyGroup 是相同的,从而使得数据相对均匀 shuffle 到下游算子,如下图为 shuffle 策略
4.⭐ sink 并行度的配置:sink 是数据流向下游的地方,可以根据 sink 的数据量及下游的服务抗压能力进行评估。如果 sink 是 kafka,可以设为 kafka 对应 topic 的分区数。注意 sink 并行度最好和 kafka partition 成倍数关系,否则可能会出现如到 kafka partition 数据不均匀的情况。但是大多数情况下 sink 算子并行度不需要特别设置,只需要和整个任务的并行度相同就行。
作者:慎独_2530
链接:https://www.jianshu.com/p/f4d4e9d16d51
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
关键词: 大数据之亚秒级实时计算技术学哪些内容
责任编辑:hnmd004
- 镇江金山寺在哪里?镇江金山寺门票多少钱?2023-06-15
- 银行转账一次性可以转多少?ATM机可以转账22023-06-15
- 当前观察:亚盛集团资金流向是什么 亚盛集2023-06-15
- 云南:154个、15.8GW光伏项目纳入2023年第2023-06-15
- 美的楼宇科技:打造全国最大空调负荷聚合商2023-06-15
- 通胀预期的内容是什么?通胀预期的影响是什2023-06-15
- 光伏每日报,众览光伏天下事!【2023年6月12023-06-15
- 辽宁沈阳辽中区:整改户用光伏市场,暂停自2023-06-15
- 环球即时:欧佩克坚守能源政策独立性2023-06-15
- 口风转向,多家布局,为何突然看好全浸没式2023-06-15
- 环球观热点:37.4GW入围!广西2023年298个2023-06-15
- 天天热点!德国专家:循环经济与能源转型相2023-06-15
- 江苏推进超低能耗和近零能耗建筑建设2023-06-15
- 今年将成为史上最暖年!2023-06-15
- 两市融资余额减少11.11亿元2023-06-15
- 焦点精选!富时中国A50指数期货盘初涨0.46%2023-06-15
- 日本5月份贸易赤字13725亿日元,连续22个月2023-06-15
- 国家发改委:支持头部生物企业做大做强,优2023-06-15
- 每日头条!碧桂园地产首次调整:江中、佛肇2023-06-15
- 中重科技做什么的?中重科技是注册制吗?2023-06-15
- 天天视讯!证券从业资格考试通过率高吗?证2023-06-15
- IPHONE14PRO到货已排到10月了吗?苹果官方2023-06-15
- 红砖什么样的比较好_红砖的选购和使用攻略2023-06-15
- 猫咪临死前的六个特殊征兆是什么? 猫咪寿2023-06-15
- 环球要闻:房产税入什么科目?中华人民共和2023-06-15
- 今日精选:日利率0.05%是多少?日利率0.05%2023-06-15
- 借呗逾期有什么影响?借呗逾期多久上征信记2023-06-15
- 巴西果什么时候结果(巴西果营养成分介绍)2023-06-15
- 小龙虾一年繁殖几次?小龙虾的季节是几月份2023-06-15
- 明星为什么要走戛纳红毯?迪丽热巴走过戛纳2023-06-15
精彩推荐
阅读排行
-
千夫指的意思是什么?千夫指的是什么人?
下一篇2023-06-12 15:45:21
-
为什么要上调存款利率?大额存单利率下降会导致什么?|世界播资讯
上一篇2023-06-12 14:21:16