检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
修改全局变量 功能介绍 该API用于修改全局变量。 调试 您可以在API Explorer中调试该接口。 URI URI格式 PUT /v1.0/{project_id}/variables/{var_name} 参数说明 表1 URI参数说明 参数名称 是否必选 参数类型 说明
CLEANARCHIVE 命令功能 用于对Hudi表的归档文件进行清理,以减少Hudi表的数据存储及读写压力。 命令格式 按文件容量进行清理,需要配置参数: hoodie.archive.file.cleaner.policy = KEEP_ARCHIVED_FILES_BY_SIZE;
CONVERT TO DELTA 命令功能 CONVERT TO DELTA 命令将现有的 Parquet 表就地转换为 Delta 表。 此命令会列出目录中的所有文件,创建 Delta Lake 事务日志来跟踪这些文件,并通过读取所有 Parquet 文件的页脚来自动推断数据架构。
获取项目ID 操作场景 在调用接口的时候,部分URL中需要填入项目ID,所以需要获取到项目ID。有如下两种获取方式: 调用API获取项目ID 从控制台获取项目ID 调用API获取项目ID 项目ID可以通过调用查询指定条件下的项目信息API获取。 获取项目ID的接口为“GET ht
SHALLOW CLONE 命令功能 SHALLOW CLONE 命令在特定版本创建现有Delta表的浅拷贝。被克隆的信息包括:schema、分区信息、数据文件路径等。 对克隆表所做的任何更改都只会影响克隆本身,而不会影响源表,只要它们不触及源数据。注意克隆表可能仍会指向源表的数
查看SQL执行计划 SQL执行计划是数据库查询的逻辑流程图,它展示了数据库管理系统如何执行一个特定的SQL查询。执行计划详细列出了执行查询所需的各个步骤,例如表扫描、索引查找、连接操作(如内连接、外连接)、排序和聚合等。执行计划可以帮助分析查询的性能,识别可能的性能瓶颈,通过了解
VACUUM 命令功能 VACUUM命令用于删除表目录中不由 Delta 管理的所有文件,并删除不再处于表事务日志最新状态且超过保留期阈值的数据文件。默认阈值为 7 天。 注意事项 RETAIN num HOURS表示保留期阈值,建议设置为至少 7 天。 如果对 Delta 表运
管理Flink作业模板 Flink模板包括样例模板和自定义模板。用户可以在已有的样例模板中进行修改,来实现实际的作业逻辑需求,节约编辑SQL语句的时间。也可以根据自己的习惯和方法自定义作业模板,方便后续可以直接调用或修改。 Flink模板管理主要包括如下功能: Flink SQL样例模板
CREATE TABLE AS SELECT 命令功能 CREATE TABLE As SELECT命令通过指定带有表属性的字段列表来创建Hudi Table。 命令格式 CREATE[ OR REPLACE] TABLE [ IF NOT EXISTS] [database_name
查询所有全局变量 功能介绍 该API用于查询当前project下所有全局变量的信息。 调试 您可以在API Explorer中调试该接口。 URI URI格式 GET /v1.0/{project_id}/variables 参数说明 表1 URI参数说明 参数名称 是否必选 参数类型
查询SQL作业日志 操作场景 DLI作业桶用于存储DLI作业运行过程中产生的临时数据,例如:作业日志、作业结果。 本节操作指导您在DLI管理控制台配置DLI作业桶,并获取SQL作业日志的操作方法。 使用须知 请勿将该DLI作业桶绑定的OBS桶用作其它用途,避免出现作业结果混乱等问题。
pyspark样例代码 开发说明 支持对接CloudTable的HBase和MRS的HBase。 前提条件 在DLI管理控制台上已完成创建跨源连接。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。
手动续费 在云服务控制台续费 登录管理控制台。 单击左侧导航栏的图标,选择“大数据 > 数据湖探索 DLI”。 在队列或弹性资源池的列表页,选中待续费的包年/包月资源。 单击“操作”列下的“更多 > 续费”。 选择续费时长,判断是否勾选“统一到期日”,将到期时间统一到各个月的某一
配置多版本过期数据回收站 功能描述 在DLI数据多版本功能开启后,过期的备份数据后续在执行insert overwrite或者truncate语句时会被系统直接清理。OBS并行文件系统可以通过配置回收站加速删除操作过期的备份数据。通过在表属性添加配置“dli.multi.version
查询Spark作业日志 操作场景 DLI作业桶用于存储DLI作业运行过程中产生的临时数据,例如:作业日志、作业结果。 本节操作指导您在DLI管理控制台配置DLI作业桶,并获取Spark作业日志的操作方法。 使用须知 请勿将该DLI作业桶绑定的OBS桶用作其它用途,避免出现作业结果混乱等问题。
跨源认证权限管理 操作场景 通过跨源认证的用户授权,可设置分配不同的跨源认证,且不同用户的作业不影响跨源认证的使用。 使用须知 管理员用户和跨源认证的所有者拥有所有权限,不需要进行权限设置且其他用户无法修改其跨源认证权限。 给新用户设置跨源认证权限时,该用户所在用户组具有Tenant
创建表时指定表的生命周期 功能描述 DLI提供了表生命周期管理功能,在创建表时指定表的生命周期。DLI会根据每张表的最后修改时间和表的生命周期来判断是否要回收此表。通过设置表的生命周期,可以帮助您更好的管理数目众多的表,自动清理长期不再使用的数据表,简化数据表的回收流程。同时支持数据恢复设置,避免因误操作丢失数据。
CREATE TABLE 命令功能 CREATE TABLE命令通过指定带有表属性的字段列表来创建Delta Table。 注意事项 在该命令中,IF EXISTS和db_name是可选配置。 在DLI中delta只支持OBS外表,通过表名创建且未指定location时将会失败。
怎样查看弹性资源池和作业的资源使用情况? 在大数据分析的日常工作中,合理分配和管理计算资源,可以提供良好的作业执行环境。 您可以根据作业的计算需求和数据规模分配资源、调整任务执行顺序,调度不同的弹性资源池或队列资源以适应不同的工作负载。待提交作业所需的CUs需小于等于弹性资源池的
Flink作业相关 前提条件 已参考Java SDK概述配置Java SDK环境。 已参考初始化DLI客户端完成客户端DLIClient的初始化,参考队列相关完成队列创建等操作。 新建SQL作业 DLI提供新建Flink SQL作业的接口。您可以使用该接口新建Flink SQL作业并提交到DLI,示例代码如下: