检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MRS对接LakeFormation实例 03 使用 通过使用LakeFormation可以实现跨AZ部署及高可靠、弹性伸缩、元数据统一管理、元数据与文件目录联动授权、对接多计算引擎等功能。 准备操作 注册华为云帐号 授权用户使用LakeFormation 创建自定义IAM策略 管理LakeFormation实例
Failed 未满足前提条件,服务器未满足请求者在请求中设置的其中一个前提条件。 413 Request Entity Too Large 由于请求的实体过大,服务器无法处理,因此拒绝请求。为防止客户端的连续请求,服务器可能会关闭连接。如果只是服务器暂时无法处理,则会包含一个Retry-After的响应信息。
网互通,既保障了可用区的独立性,又提供了低价、低时延的网络连接。 图1 区域和可用区 目前,华为云已在全球多个地域开放云服务,您可以根据需求选择适合自己的区域和可用区。更多信息请参见华为云全球站点。
网互通,既保障了可用区的独立性,又提供了低价、低时延的网络连接。 图1 区域和可用区 目前,华为云已在全球多个地域开放云服务,您可以根据需求选择适合自己的区域和可用区。更多信息请参见华为云全球站点。 父主题: 基本概念
HTTP方法 方法 说明 GET 请求服务器返回指定资源。 PUT 请求服务器更新指定资源。 POST 请求服务器新增资源或执行特殊操作。 DELETE 请求服务器删除指定资源,如删除对象等。 HEAD 请求服务器资源头部。 PATCH 请求服务器更新资源的部分内容。 当资源不存在的
审计 云审计服务(Cloud Trace Service,简称CTS),是华为云安全解决方案中专业的日志审计服务。 CTS可以提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 CTS可用于对LakeFormation实例、元数据等权限的管理。
创建LakeFormation自定义IAM策略 如果系统预置的LakeFormation权限,不满足您的授权要求,可以创建自定义策略。 目前华为云支持以下两种方式创建自定义策略: 可视化视图创建自定义策略:无需了解策略语法,按可视化视图导航栏选择云服务、操作、资源、条件等策略内容,可自动生成策略。
元数据对象。 数据权限管理提供权限策略的配置和对应的权限访问控制。 授权主体支持IAM用户和用户组以及LakeFormation角色。 授权对象支持Catalog、数据库、表及列、函数等元数据对象,也支持OBS并行文件系统路径。 授权操作包含元数据对象的相关操作,以及OBS路径的读写操作。
Studio等多种计算引擎及大数据云服务,使用户可以便捷高效地构建数据湖和运营相关业务,加速释放业务数据价值。 LakeFormation产品通过底层资源实现跨AZ部署及高可靠、弹性伸缩、元数据统一管理、元数据与文件目录联动授权、对接多计算引擎等功能,是一个Serverless服务。
数据权限概述 数据湖权限支持配置数据库、数据表、函数等维度的权限。 云服务管理员可针对不同的管理对象配置不同用户组的权限,统一对数据湖资源进行管理。 用户可通过LakeFormation管理控制台对数据湖内的资源进行统一权限管理,对于IAM用户/用户组,也可以通过关联LakeFo
如果迁移的数据来源中,元数据的存储路径前缀不为“obs://”,则需要单击“添加location规则”配置规则将前缀替换为“obs://”,并且确保存在对应的OBS存储路径。 例如,当前元数据的存储路径为“file:/a/b”,则“路径”填写“file:/”,“替换成”填写“obs://”,并确保OBS并行文件系统
//返回IAM认证信息 } } 集成配置。 代码通过Maven打包后将jar包放置在“spark/jars”目录下。 根据对接方式不同,补充以下配置: 使用SparkCatalogPlugin方式对接时,在spark-default.conf配置文件中补充以下配置: # 认证信息获取类,根据实现类路径填写,此处配置值仅作为参考
generateIdentity() { //返回IAM认证信息 } } 集成配置。 代码通过Maven打包后将jar包放置在“hive-xxx/lib”目录下。xxx为Hive内核版本号。 并在hive-site.xml补充以下配置: <!--认证信息获取类,此处配置值仅作为参考--> <property> <name>lakecat
环境准备 在配置开源Spark组件对接LakeFormation前,需要提前准备以下信息: 准备可用的开源Spark环境、开源Hive环境。并安装Git环境。 目前仅支持对接Spark 3.1.1以及Spark 3.3.1两个版本。对应使用Hive内核版本为2.3。 准备Lake
<value>false</value> </property> <!--需要对接的LakeFormation Catalog名称,可选配置,如果不配置则对接到hive catalog中,此处配置值仅作为参考--> <property> <name>lakecat.catalogname.default</name>
配置Spark对接LakeFormation 使用pyspark时,需要将以下配置中“spark.hadoop”开头的参数去掉“spark.hadoop”后配置到hive-site.xml配置文件中。 对接通用配置 在“spark/conf/spark-defaults.conf”中添加以下配置:
如果您是第一次使用LakeFormation,请参考准备工作章节,完成账号注册及授权等操作。 创建实例相关步骤请参考创建LakeFormation实例章节。 已创建待操作华为云账号的访问密钥AK/SK信息。具体操作请参考获取AK/SK章节。 父主题: 环境准备
objects 配置项。 page_info PagedInfo object 分页信息。 表5 LakeCatConfiguration 参数 参数类型 描述 key String 配置项的key。 value String 配置项的值。 description String 配置项描述。
元数据的参数描述中,1个中文字符对应3个字节。 LakeFormation依赖OBS服务的并行文件系统,OBS需要基于大数据存算分离场景进行分离部署;LakeFormation元数据的存储位置对应OBS路径,与存算分离架构的MRS等大数据集群对接。OBS并行文件系统需要支持AccessLabel特性。
元数据发现当前仅支持Spark on Hudi。 前提条件 已参考任务授权开启授权。 已上传待检测的数据至OBS并行文件系统,即已从S3或HDFS将数据上传复制到LakeFormation实例所在Region的OBS并行文件系统的规划路径下。 元数据发现的目标Catalog、目标Database已规划和创建。