创建Databricks数据洞察
前提条件
1、注册并登录阿里云账号:确保已经完成实名认证,详情请参见阿里云账号注册流程。
2、访问Databricks数据洞察控制台:使用阿里云账号登录Databricks数据洞察控制台。
3、选择地域(Region):在Databricks数据洞察控制台页面,选择所在的地域,创建的集群将会在对应的地域内,一旦创建后不能修改。
操作步骤
步骤一:创建集群
1、进入集群管理页面:在左侧导航栏中,单击“集群”。
2、创建新集群:在集群管理页面,单击“创建集群”。
3、设置基础信息:
集群名称:长度限制为1~64个字符,仅可使用中文、字母、数字、连接号(-)和下划线(_)。
Knox账号:为了更好的安全性,Web UI访问需要Knox账号和密码,若无RAM子账号,请前往RAM控制台进行创建。
Knox密码:两次确认Knox密码,登录Web UI时使用,请牢记。
Databricks Runtime版本:选择与官方保持一致的版本,包含Scala和Spark的版本。
Python版本:默认版本为Python 3。
付费类型:支持包年包月和按量付费两种类型。
可用区:一般选择默认的可用区即可,亦可选择与已购阿里云产品部署在同一个可用区。
ECS实例:由Master和Worker两种类型的节点组成,Master节点主要负责集群资源管理和作业调度,默认节点个数为1;Worker节点是计算节点,最小节点数量为3。
元数据选择:推荐选择数据湖元数据,表示元数据存储在数据湖中,如果没有开通数据湖构建服务,需要单击前往开通。
4、设置高级信息:包括Spark设置和环境变量。
Spark配置:输入Spark的配置信息,属性值将会更改到spark-defaults.conf文件中。
环境变量:自定义Spark执行的环境变量,配置的属性将会更新到spark-env.sh中。
5、阅读并勾选服务条款:阅读并勾选服务条款,然后单击“创建”。
步骤二:弹性伸缩配置(可选)
当业务量需求不断波动时,建议开启弹性伸缩功能并配置相应的伸缩规则:
1、登录Databricks控制台:根据实际情况选择地域(Region)和资源组。
2、进入集群管理页签:单击上方的集群管理页签。
3、选择集群并配置弹性伸缩:
单击相应集群所在行的“详情”。
在详情页上方,单击“弹性伸缩”。
单击“新建弹性伸缩机器组”,填写机器组名称并点击“创建机器组”。
4、配置伸缩策略:
规定时间伸缩:根据业务需求,明确按照一定的时间周期来伸缩计算资源。
规定负载伸缩:根据YARN的特定指标伸缩计算资源。
最大实例数:弹性伸缩组的Task节点上限,最多为500。
最小实例数:如果规则中设置的增加或减少Task节点数小于此处设置的最小实例数,则以最小节点数为准进行伸缩。
优雅下线:设置超时时间下线YARN上作业所在的Task节点。
5、保存并开启弹性伸缩:完成伸缩策略配置后,单击“保存”并开启弹性伸缩。
相关FAQs
Q1: Databricks数据洞察支持哪些数据源?
A1: Databricks数据洞察目前支持读写阿里云对象存储(OSS)的数据,也支持访问同账号下的EMR Hadoop集群上的HDFS数据。
Q2: 如何为RAM用户授权使用Databricks数据洞察控制台的功能?
A2: 确保RAM用户能正常使用Databricks数据洞察控制台的功能,需要使用云账号登录访问控制RAM(Resource Access Management),授予RAM用户相应的权限,具体操作参见访问控制RAM概览。
小编有话说
Databricks数据洞察是一个功能强大的大数据分析平台,通过本文的详细教程,希望能帮助您顺利创建和管理您的Databricks集群,如果在操作过程中遇到任何问题,欢迎随时查阅官方文档或联系技术支持,祝您在使用Databricks数据洞察的过程中取得更多成就!