-
资产识别与管理 - 湖仓构建 LakeFormation
具体账号信息。 API映射表:请参见API参考。 LakeFormation云服务需要访问的租户资源包括:租户的用户组和用户信息的读取,对象存储文件目录的创建/删除等,对象存储标签权限接口的访问。 推荐的安全配置 不涉及。 基础设施安全性 LakeFormation实例运行在跨A
-
创建元数据存储路径 - 湖仓构建 LakeFormation
n-test”。 在并行文件系统页面,单击已创建的文件系统名称,例如“lakeformation-test”。 在左侧导航栏选择“文件”,单击“新建文件夹”,填写待创建的文件夹名称,单击“确定”。继续单击该文件夹名称,单击“新建文件夹”,可以创建其子文件夹。 参考该步骤,依次创建用于存放元数据的路径,例如:
-
权限迁移 - 湖仓构建 LakeFormation
RANGER:MRS集群中Ranger权限策略 日志存储位置 运行迁移任务时,产生的日志存储位置。 权限策略文件存储位置 待迁移的权限策略文件在OBS并行文件系统中的存储位置。 权限策略文件名 待迁移权限策略的文件名称。 Catalog ID 填写权限来源的Catalog名称。 “权限策略类型”选择“DLF”时配置该参数。
-
元数据 - 湖仓构建 LakeFormation
例下可以创建多个Catalog,包含名称、描述、位置等信息,支持创建、修改、删除等操作。 其中位置是Catalog所映射的OBS并行文件系统的文件目录。 数据库(Database) LakeFormation实例的数据目录(Catalog)的下级资源,即在一个Catalog下可以
-
准备开发程序环境 - 湖仓构建 LakeFormation
zip”和“*.rar”文件。 支持7-Zip 16.04版本。 准备依赖信息 准备LakeFormation Java SDK依赖 参考Maven SDK地址,在Maven仓库中查看LakeFormation Java SDK最新版本Jar包,并获取文件内容,例如:
-
配置Spark对接LakeFormation - 湖仓构建 LakeFormation
conf中补充如下配置: spark.sql.catalogImplementation=hive 在“spark/conf/”文件夹下新增文件hive-site.xml(如果已有该文件则编辑此文件),并在hive-site.xml中补充以下配置: <configuration> <!--固定配置,开启自定义metastore客户端-->
-
元数据发现 - 湖仓构建 LakeFormation
如果数据存储位置下的文件后缀为同一类型,建议选择对应发现类型。 如果数据存储位置下的文件后缀为多种类型,建议选择“自动发现”。 如果数据存储位置下的文件不带后缀,建议选择对应类型。如果选择“自动发现”,则系统默认以Parquet类型文件进行发现,其他类型文件将会发现失败。 日志存储位置
-
管理函数 - 湖仓构建 LakeFormation
已创建待添加函数的数据库及其所属Catalog。 如果配置“函数位置”参数,需已参考创建元数据存储路径提前创建了用于存储函数的OBS并行文件系统。 创建函数 登录管理控制台。 在左上角单击“”,选择“大数据 > 湖仓构建 LakeFormation”进入LakeFormation控制台。
-
元数据迁移 - 湖仓构建 LakeFormation
当前实例已创建存储迁移元数据的Catalog。 且待操作用户具有OBS相关操作权限、具有已创建存储迁移元数据的Catalog的操作权限。 已创建了用于存储迁移数据的OBS并行文件系统。 表的Owner只能包含字母、数字和下划线(_),且长度为1~49个字符。不能包含中划线(-)等其他字符。 如果需要迁移多个MRS集
-
管理数据表 - 湖仓构建 LakeFormation
EXTERNAL_TABLE:外部表。当文件已经存在或位于远程位置时,使用外部表。 VIRTUAL_VIEW:虚拟视图。不存储实际的数据,不占用物理空间。 MATERIALIZED_VIEW:物化视图。存储实际的数据,占用物理空间。 数据存储位置 表所映射的OBS并行文件系统的文件目录。 单击“”,选
-
管理数据库 - 湖仓构建 LakeFormation
数据库信息存储在OBS并行文件系统中的位置。 单击“”,选择位置后,单击“确定”。 所选位置只能以“obs://”开头,且必须包含一个存储对象,例如选择“obs://lakeformation-test/catalog1/database1”。如果没有合适的并行文件系统,可以单击“前往OBS创建”进行创建。
-
规划数据湖 - 湖仓构建 LakeFormation
创建OBS并行文件系统,详情请参考创建并行文件系统章节。例如文件系统名称为“lakeformation-test”。 在并行文件系统页面,单击已创建的文件系统名称,例如“lakeformation-test”。 在左侧导航栏选择“文件”,单击“新建文件夹”,填写待创建的文件夹名称,单
-
管理Catalog - 湖仓构建 LakeFormation
Catalog数据存储在OBS并行文件系统中的位置。 单击“”,选择位置后,单击“确定”。 所选位置只能以“obs://”开头,且必须包含一个存储对象,例如选择“obs://lakeformation-test/catalog1”。如果没有合适的并行文件系统,可以单击“前往OBS创建”进行创建。
-
状态码 - 湖仓构建 LakeFormation
请求格式正确,但是由于含有语义错误,无法响应。 429 TooManyRequests 表明请求超出了客户端访问频率的限制或者服务端接收到多于它能处理的请求。建议客户端读取相应的Retry-After首部,然后等待该首部指出的时间后再重试。 500 InternalServerError 表明服务端能被请求访问到,但是不能理解用户的请求。
-
与其他服务的关系 - 湖仓构建 LakeFormation
对象存储服务(Object Storage Service,OBS) LakeFormation服务的元数据所映射的实际业务数据,存储在OBS并行文件系统的目录和文件。 MapReduce服务(MapReduce Service,MRS) LakeFormation与MRS集群中的Ranger、
-
湖仓构建 LakeFormation - 湖仓构建 LakeFormation
例下可以创建多个Catalog,包含名称、描述、位置等信息,支持创建、修改、删除等操作。 其中位置是Catalog所映射的OBS并行文件系统的文件目录。 数据库(Database) LakeFormation实例的数据目录(Catalog)的下级资源,即在一个Catalog下可以
-
修改任务信息 - 湖仓构建 LakeFormation
meter 参数 是否必选 参数类型 描述 location 是 String 用于获取权限迁移的obs文件路径。 file_name 否 String 权限json文件,文件名中不得包含 <, >, :, ", /, , |, ?, * 这些特殊字符。 log_location
-
创建任务 - 湖仓构建 LakeFormation
meter 参数 是否必选 参数类型 描述 location 是 String 用于获取权限迁移的obs文件路径。 file_name 否 String 权限json文件,文件名中不得包含 <, >, :, ", /, , |, ?, * 这些特殊字符。 log_location
-
环境准备 - 湖仓构建 LakeFormation
checkout master_dev 配置maven源,详细操作请参考获取SDK并配置maven。 获取以下jar包及对应的pom文件,并将文件放入maven本地仓库。 例如本地仓库地址为“D:\maven\repository”,则放入“D:\maven\repository
-
获取任务详情 - 湖仓构建 LakeFormation
PermissionMigrationParameter 参数 参数类型 描述 location String 用于获取权限迁移的obs文件路径。 file_name String 权限json文件,文件名中不得包含 <, >, :, ", /, , |, ?, * 这些特殊字符。 log_location String