极客时间吴磊零基础入门 Spark（完结）

由 W82P · 2022年11月28日

内容简介

说到学习 Spark，如果你对“Spark 还有那么火吗？会不会已经过时了？”这个问题感到困惑，那大可不必。

因为经过十多年的发展，Spark 已经由当初的“大数据新秀”成长为数据应用领域的中流砥柱，早已成为各大头部互联网公司的标配。比如，字节跳动、美团、Netflix 等公司基于 Spark 构建的应用，在为公司旗下的核心产品提供服务。

这也就意味着，对于数据应用领域的任何一名工程师来说，Spark 开发都是一项必备技能。

虽然 Spark 好用，而且是大数据从业者的一门必修课，但对于入门这件事儿，却也面临着这样一些难题：

学习资料多且杂，自己根本就梳理不出脉络，更甭提要构建结构化的知识体系了。

学习 Spark，一定要先学 Scala 吗？新学一门编程语言，真不是件容易的事儿。

Spark 的开发算子太多，记不住，来了新的业务需求，又不知道该从哪里下手。

……

那么，该如何解决这些问题，从而打开 Spark 应用开发的大门呢？

为此，我们邀请到了吴磊老师。他会结合自己这些年学习、应用和实战 Spark 的丰富经验，为你梳理一套零基础入门 Spark 的“三步走”方法论：熟悉 Spark 开发 API 与常用算子、吃透 Spark 核心原理、玩转 Spark 计算子框架，从而帮助你零基础上手 Spark 。

这个“三步走”方法论再配合 4 个不同场景的小项目，吴磊老师会从基本原理到项目落地，带你深入浅出玩转 Spark。

极客时间吴磊零基础入门 Spark（完结）

资源目录

——/计算机教程/02极客时间/100090001-专栏课-吴磊-零基础入门 Spark（完结）/

01-开篇词(1讲)

开篇词丨入门Spark，你需要学会“三步走”.html 3.21M

开篇词丨入门Spark，你需要学会“三步走”.m4a 12.37M

开篇词丨入门Spark，你需要学会“三步走”.pdf 3.53M

02-基础知识(1讲)

01丨Spark：从“大数据的HelloWorld”开始.html 4.82M

01丨Spark：从“大数据的HelloWorld”开始.m4a 14.48M

01丨Spark：从“大数据的HelloWorld”开始.pdf 4.97M

02丨RDD与编程模型：延迟计算是怎么回事？.html 2.63M

02丨RDD与编程模型：延迟计算是怎么回事？.m4a 13.81M

02丨RDD与编程模型：延迟计算是怎么回事？.pdf 4.03M

03丨RDD常用算子（一）：RDD内部的数据转换.html 2.47M

03丨RDD常用算子（一）：RDD内部的数据转换.m4a 15.87M

03丨RDD常用算子（一）：RDD内部的数据转换.pdf 3.65M

04丨进程模型与分布式部署：分布式计算是怎么回事？.html 2.51M

04丨进程模型与分布式部署：分布式计算是怎么回事？.m4a 13.54M

04丨进程模型与分布式部署：分布式计算是怎么回事？.pdf 3.41M

05丨调度系统：DAG、Stages与分布式任务.html 3.08M

05丨调度系统：DAG、Stages与分布式任务.m4a 18.67M

05丨调度系统：DAG、Stages与分布式任务.pdf 5.19M

06丨Shuffle管理：为什么Shuffle是性能瓶颈？.html 2.38M

06丨Shuffle管理：为什么Shuffle是性能瓶颈？.m4a 14.41M

06丨Shuffle管理：为什么Shuffle是性能瓶颈？.pdf 3.73M

07丨RDD常用算子（二）：Spark如何实现数据聚合？.html 2.50M

07丨RDD常用算子（二）：Spark如何实现数据聚合？.m4a 13.55M

07丨RDD常用算子（二）：Spark如何实现数据聚合？.pdf 4.11M

08丨内存管理：Spark如何使用内存？.html 3.04M

08丨内存管理：Spark如何使用内存？.m4a 13.43M

08丨内存管理：Spark如何使用内存？.pdf 4.24M

09丨RDD常用算子（三）：数据的准备、重分布与持久化.html 2.81M

09丨RDD常用算子（三）：数据的准备、重分布与持久化.m4a 16.93M

09丨RDD常用算子（三）：数据的准备、重分布与持久化.pdf 4.42M

10丨广播变量&累加器：共享变量是用来做什么的？.m4a 11.77M

10丨广播变量-累加器：共享变量是用来做什么的？.html 2.04M

10丨广播变量-累加器：共享变量是用来做什么的？.pdf 2.73M

11丨存储系统：数据到底都存哪儿了？.html 2.86M

11丨存储系统：数据到底都存哪儿了？.m4a 10.79M

11丨存储系统：数据到底都存哪儿了？.pdf 5.19M

12丨基础配置详解：有哪些配置项是你必须要关注的？.html 2.13M

12丨基础配置详解：有哪些配置项是你必须要关注的？.m4a 15.29M

12丨基础配置详解：有哪些配置项是你必须要关注的？.pdf 2.43M

03-Spark SQL (4讲)

13丨让我们从《小汽车摇号分析》开始.html 2.89M

13丨让我们从《小汽车摇号分析》开始.m4a 12.60M

13丨让我们从《小汽车摇号分析》开始.pdf 4.40M

14丨DataFrame与SparkSQL的由来.html 3.44M

14丨DataFrame与SparkSQL的由来.m4a 14.88M

14丨DataFrame与SparkSQL的由来.pdf 5.70M

15丨数据源与数据格式：DataFrame从何而来？.html 3.11M

15丨数据源与数据格式：DataFrame从何而来？.m4a 18.06M

15丨数据源与数据格式：DataFrame从何而来？.pdf 4.46M

16丨数据转换：如何在DataFrame之上做数据处理？.html 3.35M

16丨数据转换：如何在DataFrame之上做数据处理？.m4a 17.13M

16丨数据转换：如何在DataFrame之上做数据处理？.pdf 4.52M

17丨数据关联：不同的关联形式与实现机制该怎么选？.html 2.49M

17丨数据关联：不同的关联形式与实现机制该怎么选？.m4a 14.48M

17丨数据关联：不同的关联形式与实现机制该怎么选？.pdf 3.66M

18丨数据关联优化：都有哪些Join策略，开发者该如何取舍？.html 3.14M

18丨数据关联优化：都有哪些Join策略，开发者该如何取舍？.m4a 12.28M

18丨数据关联优化：都有哪些Join策略，开发者该如何取舍？.pdf 4.18M

19丨配置项详解：哪些参数会影响应用程序执行性能？.html 3.61M

19丨配置项详解：哪些参数会影响应用程序执行性能？.m4a 14.33M

19丨配置项详解：哪些参数会影响应用程序执行性能？.pdf 3.73M

20丨Hive+Spark强强联合：分布式数仓的不二之选.html 3.34M

20丨Hive+Spark强强联合：分布式数仓的不二之选.m4a 17.36M

20丨Hive+Spark强强联合：分布式数仓的不二之选.pdf 4.99M

21丨SparkUI（上）：如何高效地定位性能问题？.html 5.55M

21丨SparkUI（上）：如何高效地定位性能问题？.m4a 11.45M

21丨SparkUI（上）：如何高效地定位性能问题？.pdf 6.46M

22丨SparkUI（下）：如何高效地定位性能问题？.html 5.78M

22丨SparkUI（下）：如何高效地定位性能问题？.m4a 13.07M

22丨SparkUI（下）：如何高效地定位性能问题？.pdf 6.61M

04-SparkMLlib(2讲)

23丨SparkMLlib：从“房价预测”开始.html 3.16M

23丨SparkMLlib：从“房价预测”开始.m4a 14.82M

23丨SparkMLlib：从“房价预测”开始.pdf 4.80M

24丨特征工程（上）：有哪些常用的特征处理函数？.html 3.72M

24丨特征工程（上）：有哪些常用的特征处理函数？.m4a 15.84M

24丨特征工程（上）：有哪些常用的特征处理函数？.pdf 4.63M

25丨特征工程（下）：有哪些常用的特征处理函数？.html 3.06M

25丨特征工程（下）：有哪些常用的特征处理函数？.m4a 11.64M

25丨特征工程（下）：有哪些常用的特征处理函数？.pdf 5.21M

26丨模型训练（上）：决策树系列算法详解.html 2.41M

26丨模型训练（上）：决策树系列算法详解.m4a 11.77M

26丨模型训练（上）：决策树系列算法详解.pdf 4.73M

27丨模型训练（中）：回归、分类和聚类算法详解.html 2.41M

27丨模型训练（中）：回归、分类和聚类算法详解.m4a 10.44M

27丨模型训练（中）：回归、分类和聚类算法详解.pdf 3.79M

28丨模型训练（下）：协同过滤与频繁项集算法详解.html 2.72M

28丨模型训练（下）：协同过滤与频繁项集算法详解.m4a 10.26M

28丨模型训练（下）：协同过滤与频繁项集算法详解.pdf 4.34M

29丨SparkMLlibPipeline：高效开发机器学习应用.html 2.19M

29丨SparkMLlibPipeline：高效开发机器学习应用.m4a 12.80M

29丨SparkMLlibPipeline：高效开发机器学习应用.pdf 2.06M

05-特别放送(1讲)

用户故事丨小王：保持空杯心态，不做井底之蛙.html 4.78M

用户故事丨小王：保持空杯心态，不做井底之蛙.m4a 6.24M

用户故事丨小王：保持空杯心态，不做井底之蛙.pdf 12.05M

06-StructuredStreaming(1讲)

30丨StructuredStreaming：从“流动的WordCount”开始.html 3.31M

30丨StructuredStreaming：从“流动的WordCount”开始.m4a 11.57M

30丨StructuredStreaming：从“流动的WordCount”开始.pdf 4.01M

31丨新一代流处理框架：Batchmode和Continuousmode哪家强？.html 3.70M

31丨新一代流处理框架：Batchmode和Continuousmode哪家强？.m4a 11.03M

31丨新一代流处理框架：Batchmode和Continuousmode哪家强？.pdf 5.17M

32丨Window操作&Watermark：流处理引擎提供了哪些优秀机制？.html 2.97M

32丨Window操作&Watermark：流处理引擎提供了哪些优秀机制？.m4a 13.20M

32丨Window操作&Watermark：流处理引擎提供了哪些优秀机制？.pdf 4.73M

33丨流计算中的数据关联：流与流、流与批.html 1.95M

33丨流计算中的数据关联：流与流、流与批.m4a 13.56M

33丨流计算中的数据关联：流与流、流与批.pdf 2.85M

34丨Spark+Kafka：流计算中的“万金油”.html 2.49M

34丨Spark+Kafka：流计算中的“万金油”.m4a 13.21M

34丨Spark+Kafka：流计算中的“万金油”.pdf 4.08M

08-特别放送(1讲)

用户故事丨小王：保持空杯心态，不做井底之蛙.html 4.03M

用户故事丨小王：保持空杯心态，不做井底之蛙.m4a 6.24M

用户故事丨小王：保持空杯心态，不做井底之蛙.pdf 11.94M

09-结束语(2讲)

结束语丨进入时间裂缝，持续学习.html 2.52M

结束语丨进入时间裂缝，持续学习.m4a 6.60M

结束语丨进入时间裂缝，持续学习.pdf 3.87M

标签：吴磊极客

极客时间吴磊零基础入门 Spark（完结）

您可能还喜欢...

发表回复取消回复

分类

热门内容

极客时间 吴磊 零基础入门 Spark（完结）

您可能还喜欢...

网易云课堂 Vue3实战商城后台管理系统开发

越轨社会学： 马皑教授的人类的越轨行为研究

安全牛 CTF Web篇从入门到精英

发表回复 取消回复

分类

标签

热门内容

极客时间吴磊零基础入门 Spark（完结）

越轨社会学：马皑教授的人类的越轨行为研究

发表回复取消回复