子雨大数据之Spark入门教程(Python版) python大数据开发教程

发表时间：2023-08-06 10:47:13

子雨大数据之Spark入门教程(Python版)

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！版权所有，侵权必究！推荐纸质教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》本教程改编自林子雨老师编著《Spark入门教程（Scala版）》，本教程中内容均直接复制《Spark入门教程（Scala版）》，然后修改成Python语言版本。说明：（1）开发Spark应用程序时，可以采用Scala、Python、Java和R等语言，首选语言是Scala，因为Spark这个软件本身就是使用Scala语言开发的。如果想学习基于Scala的Spark入门教程，请访问《子雨大数据之Spark入门教程（Scala版）》（2）本教程采用Python语言编写Spark应用程序，在知识安排上，首先学习Python编程，然后再学习Spark应用程序开发。如果读者此前没有学习过Python，建议首先学习厦门大学数据库实验室编写的《Python入门教程》

Spark最初诞生于美国加州大学伯克利分校（UCBerkeley）的AMP实验室，是一个可应用于大规模数据处理的快速、通用引擎。2013年，Spark加入Apache孵化器项目后，开始获得迅猛的发展，如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一（即Hadoop、Spark、Storm）。Spark最初的设计目标是使数据分析更快——不仅运行速度快，也要能快速、容易地编写程序。为了使程序运行更快，Spark提供了内存计算，减少了迭代计算时的IO开销；虽然，Hadoop已成为大数据的事实标准，但其MapReduce分布式计算模型仍存在诸多缺陷，而Spark不仅具备HadoopMapReduce所具有的优点，且解决了HadoopMapReduce的缺陷。Spark正以其结构一体化、功能多元化的优势逐渐成为当今大数据领域最热门的大数据计算平台。

笔者作为“中国高校大数据课程公共服务平台”的建设者和负责人，一直致力于为全国高校教师和学生快速学习大数据知识提供辅助，降低大数据知识学习门槛，大幅节约大数据学习时间，加快推动全国高校大数据课程的大规模普及。“中国高校大数据课程公共服务平台”（平台主页）目前已经成长为国内高校大数据教学知名品牌，年访问量超过100万次，为教师和学生提供了大数据教学资源一站式服务，包括课程教材、讲义PPT、学习指南、备课指南、授课视频、实验指南、技术资料和师资培训等。在2013年5月到2016年9月，平台重点建设了与《大数据技术原理与应用》（教材官网）入门级大数据教材配套的各种教学资源，为高校开设大数据导论课程奠定了较好的基础。

但是，《大数据技术原理与应用》课程只能作为导论级课程，高校课程体系还应该包括更多高级课程，比如机器学习、Spark、NoSQL、R语言、Hadoop高级编程、流数据处理、大数据应用与案例等。因此，从2016年9月开始，笔者开始带领厦门大学数据库实验室团队，建设“Spark入门教程”教学资源，作为大数据学习探路先锋，寻找出一条学习Spark技术的捷径，降低学习难度，节省学习时间，辅助高校教师顺利开设Spark课程。

开发Spark应用程序时，可以采用Scala、Python、Java和R等语言，首选语言是Scala，因为Spark这个软件本身就是使用Scala语言开发的。如果想学习基于Scala的Spark入门教程，请访问《子雨大数据之Spark入门教程（Scala版）》

本教程采用Python语言编写Spark应用程序，在知识安排上，首先学习Python编程，然后再学习Spark应用程序开发。如果读者此前没有学习过Python，建议首先学习厦门大学数据库实验室编写的《Python入门教程》

点击这里到网易云课堂观看林子雨老师主讲《Spark编程基础（Python版）》授课视频

教程目录

推荐纸质教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》推荐相关教程：《子雨大数据之Spark入门教程（Scala版）》本教程采用Python语言编写Spark应用程序，如果读者此前没有学习过Python，建议首先学习《Python入门教程》，然后再学习下面的内容。如果读者已经具备Python语言知识，可以直接学习下面内容。

第1章Spark的设计与运行原理1.1Spark简介1.2Spark运行架构1.3RDD的设计与运行原理1.4Spark的部署模式第2章Spark的安装与使用2.1Spark的安装和使用2.2第一个Spark应用程序：WordCount2.3使用开发工具VisualStudioCode编写Spark应用程序2.4Spark集群环境搭建2.5在集群上运行Spark应用程序2.6使用JupyterNotebook调试PySpark程序第3章Spark编程基础3.1Spark入门：RDD编程3.2Spark入门：键值对RDD3.3Spark入门：共享变量3.4数据读写3.4.1Spark入门：文件数据读写3.4.2读写HBase数据

第四章4.1SparkSQL简介4.2DataFrame与RDD的区别4.3DataFrame的创建4.4从RDD转换得到DataFrame[第4.5节读取和保存数据]4.5.1读写Parquet(DataFrame)4.5.2通过JDBC连接数据库(DataFrame)4.5.3连接Hive读写数据第5章SparkStreaming5.1流计算简介5.2SparkStreaming简介第5.3节DStream操作5.3.1DStream操作概述第5.3.2节输入源第5.3.2.1节基本输入源5.3.2.1.1文件流5.3.2.1.2套接字流5.3.2.1.3RDD队列流第5.3.2.2节高级数据源5.3.2.2.1ApacheKafka5.3.2.2.2ApacheFlume5.3.3转换操作5.3.4输出操作第6章SparkMLlib6.1SparkMLlib简介6.2机器学习工作流6.2.1机器学习工作流(MLPipelines)6.2.2构建一个机器学习工作流6.3特征抽取、转化和选择6.3.1特征抽取：TF-IDF6.3.2特征抽取：Word2Vec6.3.3特征抽取：CountVectorizer6.3.4特征变换：标签和索引的转化6.3.5特征选取：卡方选择器6.4分类与回归6.4.1逻辑斯蒂回归分类器6.4.2决策树分类器6.5聚类算法6.5.1KMeans聚类算法6.5.2高斯混合模型(GMM)聚类算法6.6推荐算法6.6.1协同过滤算法6.7机器学习参数调优6.7.1模型选择和超参数调整

2023Python+大数据学习路线图

任何学习过程都需要一个科学合理的学习路线，才能够有条不紊的完成我们的学习目标。Python+大数据所需学习的内容纷繁复杂，难度较大，所以今天播妞特别为大家整理了一个全面的Python+大数据学习路线图，帮大家理清思路，攻破难关！

PS：注意收藏呦，此套路线图会不定期更新！

Python+大数据学习路线图（2023版）

开发入门：Linux入门 →MySQL数据库

核心基础： Hadoop

数仓技术： Hive数仓项目

PB内存计算： Python入门 → Python进阶→ pyspark框架 → Hive+Spark项目

Python+大数据学习路线图详细介绍

第一阶段大数据开发入门

学前导读：从传统关系型数据库入手，掌握数据迁移工具、BI数据可视化工具、SQL，对后续学习打下坚实基础。

1.Linux零基础快速入门到精通

本课程为零基础快速入门Linux操作系统系列课，服务零基础学员为设计基石。在基础的Linux系统知识之外，规划了《全方向》涉及到的Linux所需软件服务的部署实战，以Shell脚本、Python脚本自动化为基点，设计了大规模大数据集群部署、运维、监控、自动化项目实战，一站式收获知识和经验。并且课程结合当下云平台技术，为大家带来了Linux操作系统云上实践环节。

2.大数据数据开发基础MySQL8.0从入门到精通

MySQL是整个IT基础课程，SQL贯穿整个IT人生，俗话说，SQL写的好，工作随便找。本课程从零到高阶深入讲解MySQL8.0，学习本课程之后可以具备基本开发所需的SQL水平。

第二阶段大数据核心基础

学前导读：学习Linux、Hadoop、Hive，掌握大数据基础技术。

2023版大数据Hadoop入门教程

课程基于Hadoop3.3.4、Hive3.1.3、阿里云和UCloud云平台，为同学们打造一门大数据Hadoop生态体系的入门课程，但又不仅仅只是Hadoop。本课程采用“理论+实战”的形式，全面介绍了Hadoop大数据离线相关知识，秉承循序渐进、易于理解、学以致用的讲授理念，并结合了大量实例和讲师多年积累的一线开发经验，学完能掌握大数据工程师实际工作应掌握的技能。

第三阶段千亿级数仓技术

学前导读：本阶段课程以真实项目为驱动，学习离线数仓技术。

数据离线数据仓库，企业级在线教育项目实战（Hive数仓项目完整流程）

本课程会、建立集团数据仓库，统一集团数据中心，把分散的业务数据集中存储和处理；目从需求调研、设计、版本控制、研发、测试到落地上线，涵盖了项目的完整工序；掘分析海量用户行为数据，定制多维数据集合，形成数据集市，供各个场景主题使用。

第四阶段 PB内存计算

学前导读：Spark官方已经在自己首页中将Python作为首项语言，在3.2版本的更新中，高亮提示内置捆绑Pandas；课程完全顺应技术社区和招聘岗位需求的趋势加入PythononSpark的内容。

1.Python入门到精通（8天）

从零基础开始入门学习Python，开发环境使用新版python3.10，从软件下载，IDE使用，让学生一步步了解Python，掌握Python基础语法，掌握代码编写的规范和技巧，Bug调试能力，用Python第三方库做出可视化图表。课程+配套练习学练结合，锻炼学生的自主解决问题的能力和举一反三能力，不枯燥。

2.python编程进阶从零到搭建网站

学完本课程会掌握Python高级语法、多任务编程以及网络编程。

3.spark3.2从基础到精通

Spark是大数据体系的明星产品，是一款高性能的分布式内存迭代计算框架，可以处理海量规模的数据。本课程基于Python语言学习Spark3.2开发，课程的讲解注重理论联系实际，高效快捷，深入浅出，让初学者也能快速掌握。让有经验的工程师也能有所收获。

4.大数据Hive+Spark离线数仓工业项目实战

通过大数据技术架构，解决工业物联网制造行业的数据存储和分析、可视化、个性化推荐问题。一站制造项目主要基于Hive数仓分层来存储各个业务指标数据，基于sparkSQL做数据分析。核心业务涉及运营商、呼叫中心、工单、油站、仓储物料。

学完的小伙伴记得回来留言，分享你的进步和心得，鼓励其他对Python大数据感兴趣的小伙伴。加入社区or粉群，还能互动学习，共同成长！

PS：最后希望所有学习Python大数据的小伙伴都能一键三连！点赞+收藏，投币+转发，关注黑马不迷茫！祝愿大家学有所成！

黑马Python自学教程

大数据Hive+Spark离线数仓工业项目实战2021.12.31更新

一站制造项目基石与前瞻、数据仓库建模方法离线数仓分层、Sqoop数据存采集、数仓ODS&DWD层建设、数仓DWS维度层建设、数仓DWB指标层建设、数仓ST主题层建设、一站制造任务调度、Prometheus概述实现linux服务器监控实现MySQL服务监控实现Flink服务监控Grafana监控看板。一站制造：运营ciss系统、oa系统、erp系统一体化智能制造大数据分析系统

1905人已学开始学习