作者:禅与计算机程序设计艺术

1.简介

Apache Arrow面向内存计算高性能语言列存格式。它被设计可以支持复杂结构数据集并且具有显着的性能优势。本文首先介绍了Arrow的历史、动机和目标,之后简要介绍了它的基本概念相关术语然后详细介绍了Arrow核心算法原理和具体操作步骤,最后给出了一系列具体的代码示例文章讨论了Arrow未来的发展方向以及遇到的一些挑战。希望通过阅读本文,读者能够对Apache Arrow有深刻的理解并应用到实际生产环境中。

2.背景

2.1 什么是Apache Arrow?

Apache Arrow 是一个语言开源内存计算项目用来在内存中处理组数据。它最初于2017年3月作为独立项目发布,其创始人的目的是为了支持 Apache Spark 数据分析框架。从那时起,它就一直在不断进化,目前已成为一种主要的云计算服务提供商Databricks和AWS Athena产品的内存计算引擎

截至2020年8月,Arrow已经发布了7个版本功能特性也日益完善,有能力支撑庞大的内存数据集,并且可以在各种编程语言环境中运行。现在,Apache Arrow正变得越来越流行,成为许多数据科学领域的基础性工具

Apache Arrow的主要特征如下

  1. 支持多种编程语言运行环境:Arrow 提供了数据共享传输的通用接口,使得内存中的数据既可以在语言之间共享,也可以跨进程/线程边界传递。同时,Arrow 支持多种编程语言运行环境,如 Python,Java,C++,GoLang,JavaScript 和 Rust

原文地址:https://blog.csdn.net/universsky2015/article/details/132706190

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_45460.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注