检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
兼容Hive元数据模型以及Ranger权限模型,支持对接多种计算引擎及大数据云服务。 产品介绍 立即使用 成长地图 由浅入深,带您玩转LakeFormation 01 了解 了解LakeFormation的产品架构、功能和基础知识,有助于您更准确地匹配实际业务,让作业开发变得更简单、更方便。
Formation,简称LakeFormation)是企业级数据湖一站式构建服务。 在存算分离架构基础上提供数据湖元数据统一管理的可视化界面及API,兼容Hive元数据模型以及Ranger权限模型,支持对接多种计算引擎及大数据云服务 本文档提供LakeFormation服务应用开发流程、环境准
数据湖建设和持续运营:数据湖建设和持续运营,是指数据湖的初始化建设及后续日常的海量元数据及权限管理,因此客户需要便捷高效的建设和管理方式。 多计算引擎共享元数据:多计算引擎共享元数据,是指客户的多种计算引擎(Hive、Spark等)均使用统一的元数据,最大化实现数据的共享,避免不必要的重复数据,更大程度释放业务数据价值。
捷高效的建设和管理方式。 传统方式的弊端 仅支持通过计算引擎(Hive、Spark等)执行SQL实现元数据的定义、修改、查询,对用户有一定的技能要求,缺少提升易用性的可视化界面。 一个完整的授权活动,需要针对计算引擎、对象存储执行两次授权操作,对用户操作带来不便,易用性差。 LakeFormation服务优势
DataArts Studio等多种计算引擎及大数据云服务,使用户可以便捷高效地构建数据湖和运营相关业务,加速释放业务数据价值。 LakeFormation产品通过底层资源实现跨AZ部署及高可靠、弹性伸缩、元数据统一管理、元数据与文件目录联动授权、对接多计算引擎等功能,是一个Serverless服务。
您选择的实例规格和使用时长计费。 详细的计费项及说明请参考表1。 您也可以通过LakeFormation提供的价格计算器,选择您需要的实例规格和使用时长等,来快速计算出购买LakeFormation实例的参考价格。 表1 计费项信息 实例规格 计费项 计费说明 独享型 元数据对象数量
less服务。 LakeFormation架构 LakeFormation服务架构图如图1所示。 图1 LakeFormation服务架构 LakeFormation功能包括元数据管理、数据权限管理、控制台、API。 元数据基于Hive元数据模型,支持Catalog、数据库、表、函数等元数据对象。
“引号字符”、“是否把第一行当做列名”等参数) Avro 说明: 如果数据存储位置下的文件后缀为同一类型,建议选择对应发现类型。 如果数据存储位置下的文件后缀为多种类型,建议选择“自动发现”。 如果数据存储位置下的文件不带后缀,建议选择对应类型。如果选择“自动发现”,则系统默认以
什么是项目 云的每个区域默认对应一个项目,这个项目由系统预置,用来隔离物理区域间的资源(计算资源、存储资源和网络资源),以区域默认单位为项目进行授权,IAM用户可以访问您账号中该区域的所有资源。 如果您希望进行更加精细的权限控制,可以在区域默认的项目中创建子项目,并在子项目中购买
共享,避免不必要的重复数据,更大程度释放业务数据价值。 本服务的优势 兼容Hive元数据模型:提供兼容Hive元数据模型的SDK客户端,使计算引擎对接LakeFormation更轻松和高效。 兼容Ranger权限模型:提供兼容Ranger权限模型的接口,具备良好的生态扩展性。 建议搭配服务
独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 项目 区域默认对应一个项目,这个项目由系统预置,用来隔离物理区域间的资源(计算资源、存储资源和网络资源),以默认项目为单
模型,支持无缝对接多种计算引擎及大数据云服务,使客户便捷高效地构建湖仓和运营相关业务,加速释放业务数据价值。 LakeFormation产品通过底层资源实现跨AZ部署及高可靠、弹性伸缩、元数据统一管理、缓存加速元数据查询、元数据与文件目录联动授权、对接多计算引擎等功能,是一个Serverless服务。
创建元数据存储路径 LakeFormation元数据映射的数据文件和目录存储在OBS并行文件系统中。在创建LakeFormation元数据之前,需要提前创建数据存储使用的OBS并行文件系统。 如果已存在可用的OBS并行文件系统,可跳过该章节操作。 操作步骤 创建OBS并行文件系统
资源准备进度百分比,只有当实例处于资源准备中状态时才会计算并返回该值。 resource_expected_duration Integer 资源准备预计时长,单位分钟。 scale_progress Integer 规格变更进度百分比,只有当实例处于规格变更中状态时才会计算并返回该值。 scale_expected_duration
建库时路径不能为所在Catalog父路径或相同路径,不能为同一Catalog下其他数据库(除default外)路径的父路径、子路径或相同路径。 创建数据库的存储位置必须在所属Catalog的存储位置之下。 用户自定义创建的Catalog对象及其子元数据对象,暂不支持授权和细粒度权限控制。 LakeFormation
避免频繁调用。 使用Token前请确保Token离过期有足够的时间,防止调用API的过程中Token过期导致调用API失败。 Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求消息头,从而通过身份认证,获得操作API的权限。
资源准备进度百分比,只有当实例处于资源准备中状态时才会计算并返回该值。 resource_expected_duration Integer 资源准备预计时长,单位分钟。 scale_progress Integer 规格变更进度百分比,只有当实例处于规格变更中状态时才会计算并返回该值。 scale_expected_duration
Array of Order objects 指定表中的每个存储桶的排序顺序的列表。 serde_info SerDeInfo object 序列化/反序列化信息。 parameters Map<String,String> 存储描述符的参数。 key最小长度为1,最大长度为255。 value最大长度为4000
Array of Order objects 指定表中的每个存储桶的排序顺序的列表。 serde_info SerDeInfo object 序列化/反序列化信息。 parameters Map<String,String> 存储描述符的参数。 key最小长度为1,最大长度为255。 value最大长度为4000
Array of Order objects 指定表中的每个存储桶的排序顺序的列表。 serde_info SerDeInfo object 序列化/反序列化信息。 parameters Map<String,String> 存储描述符的参数。 key最小长度为1,最大长度为255。 value最大长度为4000