检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置Spark对接LakeFormation 使用pyspark时,需要将以下配置中“spark.hadoop”开头的参数去掉“spark.hadoop”后配置到hive-site.xml配置文件中。 对接通用配置 在“spark/conf/spark-defaults.conf”中添加以下配置:
配置开源Spark组件对接LakeFormation 环境准备 配置Spark对接LakeFormation 对接后二次开发
元数据发现 操作场景 当数据存储在OBS并行文件系统中,而在LakeFormation还未与对应的元数据关联时,可以通过元数据发现,来构造这些数据对应的元数据信息,从而支撑SQL引擎或者用户的应用程序的计算与分析。 当前元数据发现特性属于公测阶段,公测期产品完全免费,商业化后会根据元数据发现消耗资源收取资源费用。
一站式可视化湖仓构建:提供数据湖元数据统一定义和授权的可视化界面,支持用户便捷操作,快速构建。 联动授权:支持在元数据授权的同时,自动化完成元数据所映射的文件目录的授权,使用户授权操作更便捷和高效。 细粒度访问控制:实现针对数据湖的库、表、列级元数据的细粒度访问控制,为业务数据的安全性提供有力保障。
数据库(Database) LakeFormation实例的数据目录(Catalog)的下级资源,即在一个Catalog下可以创建多个Database,包含名称、所属Catalog、拥有者、位置、描述等信息,支持创建、修改、删除以及授权和查看权限等操作。 其中位置是Datab
管理数据表 用户在数据目录(Catalog)中可对元数据库和元数据表进行管理,按照业务规划创建对应数据表。 前提条件 已创建LakeFormation实例,且实例处于正常运行状态。 已创建待创建数据表的数据库及其所属Catalog。 已参考创建元数据存储路径提前创建了用于存储数据表的OBS并行文件系统。
Formation,DLF) MRS云数据库RDS(for MySQL) 开源HiveMetastore(for MySQL) MRS云数据库RDS(for PostgreSQL) MRS本地数据库 JDBC URL 待迁移元数据JDBC链接的URL。“数据源类型”不为“DLF”时配置该参数。
catalogID。 database_name String 数据库名称。 database_id String 数据库ID。 database_status Integer 数据库状态:0表示正常,1表示删除中,2表示已删除,3表示恢复中。 external_database_id String
数据目录(CATALOG):LakeFormation管理的数据目录,可以包含多个数据库。 数据库(DATABASE):LakeFormation管理的数据库,可以包含多个数据表或函数。 数据表(TABLE):LakeFormation管理的数据表,可以包含多个列。 列(COLUMN):LakeFormation管理的列。
规划数据湖 MRS对接LakeFormation仅支持对接LakeFormation实例的数据目录名称为“hive”的Catalog,名称为“default”的数据库。 LakeFormation实例创建成功后,用户可按照业务规划创建相关Catalog及内部的数据库、表等元数据。
删除数据库 功能介绍 删除指定数据库,catalog的默认数据库不允许删除。 cascade: 指定为true时,删除数据库下的表;指定为false时,只能删除空的数据库。 delete_data: 指定为true时,级联删除会将表的数据放入回收站;指定为false时,不删除表数据。
单击“操作”列的“编辑”可以修改数据库配置信息。 单击“操作”列的“数据表”,可以查看当前数据库下的数据表信息。 在“更多”中可以为当前数据库进行授权、查看权限等操作。 如果需要删除数据库,可以选择“更多 > 删除”,确认操作影响,并根据界面提示确认是否删除其他数据后,单击“确定”。 同时删除数据库下的表
LakeFormation适用于以下场景: 数据湖建设和持续运营:数据湖建设和持续运营,是指数据湖的初始化建设及后续日常的海量元数据及权限管理,因此客户需要便捷高效的建设和管理方式。 多计算引擎共享元数据:多计算引擎共享元数据,是指客户的多种计算引擎(Hive、Spark等)均使用统一的元数据,最大化实现数据的共享,
catalogID。 database_name String 数据库名称。 database_id String 数据库ID。 database_status Integer 数据库状态:0表示正常,1表示删除中,2表示已删除,3表示恢复中。 external_database_id String
数据库管理 列举数据库信息 创建数据库 获取数据库 修改数据库属性 删除数据库 列举数据库名称信息 父主题: LakeCat
talog、UPDATE_DATABASE-修改数据库、UPDATE_TABLE-修改表、UPDATE_FUNCTION-修改函数、UPDATE_PARTITION-修改分区、DELETE_TABLE-删除表、 DELETE_DATABASE-删除数据库、DELETE_CATAL
DROP 删除数据库。 DESCRIBE 查看数据库的元数据信息或切换数据库。 LIST_TABLE 查看数据库下资源列表。 LIST_FUNC 查看某一数据库下的函数。 CREATE_TABLE 在数据库中创建表。 CREATE_FUNC 在数据库中创建函数。 表 ALL 表的所有操作权限。
代码通过Maven打包后将jar包放置在“spark/jars”目录下。 根据对接方式不同,补充以下配置: 使用SparkCatalogPlugin方式对接时,在spark-default.conf配置文件中补充以下配置: # 认证信息获取类,根据实现类路径填写,此处配置值仅作为参考 spark.sql.catalog
catalogID。 database_name String 数据库名称。 database_id String 数据库ID。 database_status Integer 数据库状态:0表示正常,1表示删除中,2表示已删除,3表示恢复中。 external_database_id String
环境准备 在配置开源Spark组件对接LakeFormation前,需要提前准备以下信息: 准备可用的开源Spark环境、开源Hive环境。并安装Git环境。 目前仅支持对接Spark 3.1.1以及Spark 3.3.1两个版本。对应使用Hive内核版本为2.3。 准备Lake