本文介绍: Apache Spark™ 是由加州大学伯克利分校 AMPLab 提出并开源快速通用计算引擎。它最初用于解决大规模数据集上海量数据分析,但随着它的不断发展,已经成为用于云计算机器学习和流处理领域核心组件。Spark 支持多种编程语言,包括 Scala、Java、Python 和 R,支持 SQL 和 DataFrame API,提供统一批处理和流处理功能。Spark高性能主要源自其可扩展性、容错机制动态调度

作者:禅与计算机程序设计艺术

1.简介

Apache Spark™ 是由加州大学伯克利分校 AMPLab 提出并开源快速通用计算引擎。它最初用于解决大规模数据集上的海量数据分析,但随着它的不断发展,已经成为用于云计算机器学习和流处理领域的核心组件。Spark 支持多种编程语言,包括 Scala、Java、Python 和 R,支持 SQL 和 DataFrame API,提供统一批处理和流处理功能。Spark高性能主要源自其可扩展性、容错机制动态调度。它的 API 可以通过 Java、Scala、Python、R、SQL 或 DataFrame API 来访问

2.特性

2.1.易于使用

Spark一个高度抽象框架。它的 API 通过用户友好的 DataFrames 和 LINQ 查询语法而非编程模型实现高级操作。对许多应用程序来说,这些特性都使得开发人员能够使用更少的代码写出更强大的作品。此外,Spark 提供了丰富的工具集,如 MLlib、GraphX、Streaming、ML 管道、Structured Streaming 等,可以帮助用户实现复杂数据分析工作流。

2.2.分布式计算

Spark 使用集群资源管理器来启动分布式任务以便集群中跨多个节点进行并行计算。Spark内部采用 DAG(有向无环图)来执行计算,以确保整个应用执行效率。这使得 Spark 非常适合用来处理快速数据分析任务,尤其是在处理结构化或半结构化数据时。

2.3.高吞吐量

Spark 可同时处理数十亿条记录,并且具有比 Hadoop 更高的处理能力和速度。Spark 的 MapReduce 模型

原文地址:https://blog.csdn.net/universsky2015/article/details/132798180

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_32874.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注