【Azure 架构师学习笔记】- Azure Databricks (1) – 环境搭建

互联网 12 月前 0 4

本文介绍: Da tab r ic ks 已经成为了数据科学的必备工具，今时今日你已经很难抛开它来谈大数据，它常用于做复杂的ETL中的T，数据分析，数据挖掘等，特别适用于做数据建模，机器学习等。那么顺应时代，现在也来看看这个工具的内容。首先要有一个环境，基于Azure 的Datab r i c ks简称ADB。托管在Azure 上的Datab r i c ks已经被Azure进行了很大的优化，在搭建时只需要简单的几步即可拥有一个环境，不过要提醒一句ADB的集群并不便宜，用完马上删掉或停止，否则一晚过百美金就会烧掉。

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Datab r i c ks】系列。

前言

Datab r ick s 已经成为了数据科学的必备工具，今时今日你已经很难抛开它来谈大数据，它常用于做复杂的ETL中的T，数据分析，数据挖掘等，特别适用于做数据建模，机器学习等。

那么顺应时代，现在也来看看这个工具的内容。首先要有一个环境，基于Azure 的Databricks简称ADB。托管在Azure 上的Databricks已经被Azure进行了很大的优化，在搭建时只需要简单的几步即可拥有一个环境，不过要提醒一句ADB的集群并不便宜，用完马上删掉或停止，否则一晚过百美金就会烧掉。

搭建环境

步骤1：创建ADB workspace

可以把Wo rk space想象成一个装在Azure上的应用程序，然后通过它进入Databricks的环境。通过下图，创建一个 workspace：
在这里插入图片描述
创建的步骤很简单，提供一些简单信息，对于pr i cin g ti er处，可以先按默认选择，在实际环境中则需要考虑具体的费用和用法。

在这里插入图片描述

点击创建后等待几分钟即可完成：

在这里插入图片描述

Databricks 内部 布局

通过 workspace进去之后可以看到下图的布局，ADB 的版本更新可能会导致布局的偏差，不过基本功能都不会变。
在这里插入图片描述
我们主要用到的一些导航栏有：

Wo rk sp ace：通过一个“文件系统”把你的notebooks进行逻辑分组。默认情况下会有两个：Sha red 和Use rs， Sha red 文件夹用来存储共同协作 notebooks。 users则只给创建的用户自己访问。可以在这里进行权限控制来保证多用户使用时的安全性。
Re ce n ts：存储最近访问的资源列表。
Co mpu t e：ADB的核心运算组件——集群所在地。

在这里插入图片描述

步骤3 创建集群

除了权限， ADB 中常规的必要操作就是创建和管理集群，从Co mpute 导航栏进去，点击创建集群：
在这里插入图片描述
集群选项不是非常多，最主要的部分是节点（min/ max workers）这个决定你运行时的费用和性能。还有自动停止时间，如果你担心忘记了手动停止，那么就这下图第二个箭头处填上合适的时间，让集群在没有活动后的多少分钟内停止。

在这里插入图片描述

创建时会出现下面左边箭头的图标，叫作pin cluster， ADB 的集群有个特性，当集群建立后闲置30天都没有被用过，就会自动销毁，通过pin住集群可以避免在重要的环境下集群的异常消失。
集群创建后，在右边箭头中可以开始，停止集群。
在这里插入图片描述
创建完毕后的集群样子：

到此为止，物理上的搭建已经初步完成。下一文将对ADB 的集群进行更深入的研究，因为它实在太重要，而且费用贵。

原文地址:https://blog.csdn.net/DBA_Hua n gzj/article/de tails/134681201

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

如若转载，请注明出处：http://www.7code.cn/show_41310.html

如若内容造成侵权/违法违规/事实不符，请联系代码007邮箱：su w n gjj01@126.com进行投诉反馈，一经查实，立即删除！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

azure databricks 架构师

相关文章

通过遵循最佳做法来提高 EDA 和 HPC 应用程序的 Azure NetApp 文件性能

通过遵循最佳做法来提高 EDA 和 HPC 应用程序的 Azure NetApp 文件性能

互联网 10 月前 6

Azure AD 和 Identity Server4 客户端身份验证和授权

Azure AD 和 Identity Server4 客户端身份验证和授权

互联网 10 月前 5

Azure Front Door health probe 的source IP地址范围是什么？

Azure Front Door health probe 的source IP地址范围是什么？

互联网 10 月前 2

高级架构师是如何设计一个系统的？

高级架构师是如何设计一个系统的？

互联网 10 月前 4

《PySpark大数据分析实战》-26.数据可视化图表Seaborn介绍

《PySpark大数据分析实战》-26.数据可视化图表Seaborn介绍

大数据 11 月前 12

【低代码平台】10个开源免费Airtable 的替代方案

【低代码平台】10个开源免费Airtable 的替代方案

互联网 11 月前 12

JVM之GC垃圾回收

互联网 10 月前 3

行为型设计模式—中介者模式

互联网 10 月前 4

发表回复取消回复