本文介绍: Databricks 已经成为数据科学的必备工具,今时今日你已经很难抛开它来谈大数据,它常用于复杂的ETL中的T, 数据分析数据挖掘等,特别适用于做数据建模机器学习等。那么顺应时代,现在也来看看这个工具内容。首先要有一个环境基于Azure 的Databricks简称ADB。托管在Azure 上的Databricks已经被Azure进行了很大的优化, 在搭建时只需要简单的几步即可拥有一个环境,不过要提醒一句ADB的集群并不便宜,用完马上删掉停止, 否则一晚过百美金就会烧掉。

本文属于【Azure 架构师学习笔记】系列
本文属于【Azure Databricks系列

前言

Databricks 已经成为了数据科学的必备工具,今时今日你已经很难抛开它来谈大数据,它常用于做复杂的ETL中的T, 数据分析数据挖掘等,特别适用于做数据建模机器学习等。

那么顺应时代,现在也来看看这个工具的内容。首先要有一个环境基于Azure 的Databricks简称ADB。托管在Azure 上的Databricks已经被Azure进行了很大的优化, 在搭建时只需要简单的几步即可拥有一个环境,不过要提醒一句ADB的集群并不便宜,用完马上删掉停止, 否则一晚过百美金就会烧掉。

搭建环境

步骤1: 创建ADB workspace

可以把Workspace想象成一个装在Azure上的应用程序然后通过进入Databricks的环境。通过下图创建一个workspace
在这里插入图片描述
创建步骤简单,提供一些简单信息,对于pricing tier处,可以先按默认选择,在实际环境中则需要考虑具体的费用用法

在这里插入图片描述

点击创建等待分钟即可完成

在这里插入图片描述

Databricks 内部布局

通过workspace进去之后可以看到下图布局,ADB 的版本更新可能会导致布局的偏差,不过基本功能都不会变。
在这里插入图片描述
我们主要用到的一些导航栏有:

在这里插入图片描述

步骤3 创建集群

除了权限, ADB 中常规的必要操作就是创建管理集群, 从Compute导航栏进去,点击创建集群:
在这里插入图片描述
集群选项不是非常多,最主要的部分节点min/ max workers这个决定你运行时的费用性能。还有自动停止时间,如果你担心忘记了手动停止,那么就这下图第二个箭头处填上合适的时间,让集群在没有活动后的多少分钟停止

在这里插入图片描述

创建时会出现下面左边箭头图标,叫作pin cluster, ADB 的集群有个特性, 当集群建立后闲置30天都没有被用过,就会自动销毁,通过pin住集群可以避免在重要的环境下集群的异常消失
集群创建后,在右边箭头可以开始,停止集群。
在这里插入图片描述
创建完毕后的集群样子:
在这里插入图片描述

到此为止,物理上的搭建已经初步完成。下一文将对ADB 的集群进行更深入的研究,因为它实在太重要,而且费用贵。

原文地址:https://blog.csdn.net/DBA_Huangzj/article/details/134681201

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_41310.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注