联系

极客时间 吴磊 Spark 性能调优实战

内容简介

目前,Spark 已然成为分布式数据处理技术的事实标准,也在逐渐成为各大头部互联网公司的标配。对于数据领域的任何一名工程师来说,Spark 开发都是一项必备技能;而想要进入大厂,就更得有丰富的 Spark 性能调优经验。

可现实情况是,我们想要快速上手开发应用很容易,把握应用的执行性能却总也找不到头绪,比如:

明明都是内存计算,为什么我用了 RDD/DataFrame Cache,性能反而更差了?

网上吹得神乎其神的调优手段,为啥到了我这就不好使呢?

并行度设置得也不低,为啥我的 CPU 利用率还是上不去?

节点内存几乎全都划给 Spark 用了,为啥我的应用还是 OOM?

为此,我们特意邀请到了吴磊老师,他根据自己多年的数据处理经验,梳理出了一套关于性能调优的方法论,帮助你在有效加速 Spark 作业执行性能的同时,也建立起以性能为导向的开发习惯。

除此之外,他还会手把手教你打造一个分布式应用,带你从不同角度洞察汽油车摇号的趋势和走向,让你对性能调优技巧和思路的把控有一个“质的飞跃”。

极客时间 吴磊 Spark 性能调优实战

资源目录

——/计算机教程/02极客时间/100073401-专栏课-吴磊-Spark 性能调优实战(完结)/

01-课前必学 (3讲)

01丨性能调优的必要性:Spark本身就很快,为啥还需要我调优?.m4a 5.86M

01丨性能调优的必要性:Spark本身就很快,为啥还需要我调优?.pdf 2.03M

02丨性能调优的本质:调优的手段五花八门,该从哪里入手?.m4a 6.45M

02丨性能调优的本质:调优的手段五花八门,该从哪里入手?.pdf 2.16M

开篇词丨Spark性能调优,你该掌握这些“套路”.m4a 5.08M

开篇词丨Spark性能调优,你该掌握这些“套路”.pdf 6.10M

02-原理篇 (5讲)

03丨RDD:为什么你必须要理解弹性分布式数据集?.m4a 7.06M

03丨RDD:为什么你必须要理解弹性分布式数据集?.pdf 5.44M

04丨DAG与流水线:到底啥叫“内存计算”?.m4a 7.47M

04丨DAG与流水线:到底啥叫“内存计算”?.pdf 2.23M

05丨调度系统:“数据不动代码动”到底是什么意思?.m4a 11.54M

05丨调度系统:“数据不动代码动”到底是什么意思?.pdf 8.93M

06丨存储系统:空间换时间,还是时间换空间?.m4a 8.84M

06丨存储系统:空间换时间,还是时间换空间?.pdf 2.60M

07丨内存管理基础:Spark如何高效利用有限的内存空间?.m4a 9.25M

07丨内存管理基础:Spark如何高效利用有限的内存空间?.pdf 2.69M

03-通用性能调优篇 (12讲)

08丨应用开发三原则:如何拓展自己的开发边界?.m4a 10.91M

08丨应用开发三原则:如何拓展自己的开发边界?.pdf 1.92M

09丨调优一筹莫展,配置项速查手册让你事半功倍!(上).m4a 11.22M

09丨调优一筹莫展,配置项速查手册让你事半功倍!(上).pdf 1.96M

10丨调优一筹莫展,配置项速查手册让你事半功倍!(下).m4a 9.22M

10丨调优一筹莫展,配置项速查手册让你事半功倍!(下).pdf 5.18M

11丨Shuffle的工作原理:为什么说Shuffle是一时无两的性能杀手?.m4a 9.69M

11丨Shuffle的工作原理:为什么说Shuffle是一时无两的性能杀手?.pdf 23.40M

12丨广播变量(一):克制Shuffle,如何一招制胜!.m4a 7.24M

12丨广播变量(一):克制Shuffle,如何一招制胜!.pdf 4.13M

13丨广播变量(二):有哪些途径让SparkSQL选择BroadcastJoins?.m4a 7.40M

13丨广播变量(二):有哪些途径让SparkSQL选择BroadcastJoins?.pdf 1.50M

14丨CPU视角:如何高效地利用CPU?.m4a 10.31M

14丨CPU视角:如何高效地利用CPU?.pdf 7.18M

15丨内存视角(一):如何最大化内存的使用效率?.m4a 8.48M

15丨内存视角(一):如何最大化内存的使用效率?.pdf 1.48M

16丨内存视角(二):如何有效避免Cache滥用?.m4a 10.61M

16丨内存视角(二):如何有效避免Cache滥用?.pdf 3.83M

17丨内存视角(三):OOM都是谁的锅?怎么破?.m4a 8.14M

17丨内存视角(三):OOM都是谁的锅?怎么破?.pdf 4.50M

18丨磁盘视角:如果内存无限大,磁盘还有用武之地吗?.m4a 7.58M

18丨磁盘视角:如果内存无限大,磁盘还有用武之地吗?.pdf 4.60M

19丨网络视角:如何有效降低网络开销?.m4a 7.23M

19丨网络视角:如何有效降低网络开销?.pdf 2.53M

04-Spark SQL 性能调优篇 (4讲)

20丨RDD和DataFrame:既生瑜、何生亮.m4a 7.22M

20丨RDD和DataFrame:既生瑜、何生亮.pdf 5.25M

21丨Catalyst逻辑计划:你的SQL语句是怎么被优化的?(上).m4a 8.52M

21丨Catalyst逻辑计划:你的SQL语句是怎么被优化的?(上).pdf 5.10M

22丨Catalyst物理计划:你的SQL语句是怎么被优化的(下)?.m4a 8.07M

22丨Catalyst物理计划:你的SQL语句是怎么被优化的(下)?.pdf 8.33M

23丨钨丝计划:Tungsten给开发者带来了哪些福报?.m4a 10.00M

23丨钨丝计划:Tungsten给开发者带来了哪些福报?.pdf 5.78M

24丨Spark3.m4a 13.35M

24丨Spark3.pdf 5.41M

25丨Spark3.m4a 10.14M

25丨Spark3.pdf 3.51M

26丨JoinHints指南:不同场景下,如何选择Join策略?.m4a 14.02M

26丨JoinHints指南:不同场景下,如何选择Join策略?.pdf 7.06M

27丨大表Join小表:广播变量容不下小表怎么办?.m4a 15.11M

27丨大表Join小表:广播变量容不下小表怎么办?.pdf 3.91M

28丨大表Join大表(一):什么是“分而治之”的调优思路?.m4a 11.33M

28丨大表Join大表(一):什么是“分而治之”的调优思路?.pdf 4.30M

29丨大表Join大表(二):什么是负隅顽抗的调优思路?.m4a 12.61M

29丨大表Join大表(二):什么是负隅顽抗的调优思路?.pdf 6.19M

30丨应用开发:北京市小客车(汽油车)摇号趋势分析.m4a 13.82M

30丨应用开发:北京市小客车(汽油车)摇号趋势分析.pdf 3.92M

31丨性能调优:手把手带你提升应用的执行性能.m4a 19.84M

31丨性能调优:手把手带你提升应用的执行性能.pdf 6.63M

05-结束语(2讲)

结束语丨在时间面前,做一个笃定学习的人.m4a 8.56M

结束语丨在时间面前,做一个笃定学习的人.pdf 3.33M

您可能还喜欢...

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注