首先先让chatgpt帮我规划学习路径使用Markdown格式返回,并转成思维导图的形式

目录

目录

1. 了解spark

1.1 Spark的概念

1.2 Spark的架构

1.3 Spark的基本功能

2.spark中的数据抽象和操作方式

    2.1.RDD(弹性分布式数据集)

    2.2 DataFrame

    2.3 DataSet



1. 了解spark

1.1 Spark概念

        是Spark提供的机器学习库,包含了常见的机器学习算法和工具,用于数据挖掘模型训练

1.2 Spark的架构

三者的关系如下

总结起来,Cluster Manager负责资源的分配和任务调度,Driver负责解析用户程序并协调任务的执行,而Executor负责实际执行任务并返回计算结果。它们三者一起协作实现了Spark应用程序分布式计算

1.3 Spark的基本功能

  1. 分布式数据处理

    Spark可以处理大规模数据集,并支持分布式环境中进行并行计算。它通过将数据加载内存中并在集群中进行分布式计算,提供高性能的数据处理能力。

  2. 数据抽象操作

    Spark提供了弹性分布式数据集(RDD)的抽象可以以类似于本地集合方式对数据进行处理。Spark的API支持各种数据操作,如映射过滤聚合排序等。

  3. 批处理交互式查询

    Spark提供了Spark SQL模块支持使用SQL语言行数据查询和操作。它可以处理结构化数据,并提供了高级API(如DataFrame和DataSet),使得批处理交互式查询更加方便和高效。

  4. 流处理和实时分析

    Spark Streaming模块使得实时数据处理和流式分析成为可能。它支持将连续数据流以微批处理方式进行处理,并提供了窗口操作状态管理实时计算等功能

  5. 机器学习数据挖掘

    Spark提供了Spark MLlib机器学习库,包含了常见的机器学习算法和工具。它支持分类回归聚类推荐等机器学习任务,并提供了特征处理、模型评估和模型调优功能

  6. 图计算和图分析

    Spark GraphX模块提供了图处理和图算法功能。它支持构建和处理大规模图数据,并提供了图遍历、图算法和图分析等功能

  7. 分布式文件系统数据源支持

    Spark支持多种分布式文件系统数据源,如Hadoop HDFS、Amazon S3、Apache Cassandra等。这使得Spark可以方便地与各种数据存储和数据处理平台集成

2.spark中的数据抽象操作方式

    2.1.RDD(弹性分布式数据集)

    2.2 DataFrame

    2.3 DataSet

原文地址:https://blog.csdn.net/qq_17246605/article/details/134625750

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_20698.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注