检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Administrator 租户管理员。 操作权限:具有数据湖探索服务资源的所有执行权限。创建后,可通过ACL赋权给其他子用户使用。 作用范围:项目级服务。 系统角色 无 DLI Service Administrator 数据湖探索管理员。 操作权限:具有数据湖探索服务资源的所有执行权限。创建后,可通过ACL赋权给其他子用户使用。
据需要具体情况进行替换。 数据清理委托权限配置 适用场景:数据清理委托,表生命周期清理数据及lakehouse表数据清理使用。该委托需新建后自定义权限,但委托名称固定为dli_data_clean_agency。 请在设置委托的授权范围时分别对OBS权限和DLI权限授权范围: OBS权限请选择“全局服务资源”
查询作业状态 功能介绍 该API用于在作业提交后查询作业状态。 调试 您可以在API Explorer中调试该接口。 URI URI格式: GET /v1.0/{project_id}/jobs/{job_id}/status 参数说明 表1 URI 参数 参数名称 是否必选 参数类型
regexp_replace1函数用于将source字符串中第occurrence次匹配pattern的子串,替换成指定字符串replace_string后,返回结果字符串。 regexp_replace1函数只适用于Spark 2.4.5及之前的版本。 相似函数:regexp_replace,
regexp_replace1函数用于将source字符串中第occurrence次匹配pattern的子串,替换成指定字符串replace_string后,返回结果字符串。 regexp_replace1函数只适用于Spark 2.4.5及之前的版本。 相似函数:regexp_replace,
新一次输出结果。若没有设置,则默认没有使用周期触发策略。 lateness_interval 表示窗口结束后延迟lateness_interval时长,继续统计在窗口结束后延迟时间内到达的属于该窗口的数据,而且在延迟时间内到达的每个数据都会更新输出结果。 说明: 当时间窗口为处理
新一次输出结果。若没有设置,则默认没有使用周期触发策略。 lateness_interval 表示窗口结束后延迟lateness_interval时长,继续统计在窗口结束后延迟时间内到达的属于该窗口的数据,而且在延迟时间内到达的每个数据都会更新输出结果。 说明: 当时间窗口为处理
一次输出结果。如果没有设置,则默认没有使用周期触发策略。 lateness_interval 表示窗口结束后延迟lateness_interval时长,继续统计在窗口结束后延迟时间内到达的属于该窗口的数据,而且在延迟时间内到达的每个数据都会更新输出结果。 说明: 当时间窗口为处理
]; 关键字 DISTRIBUTE BY:根据指定的字段进行分桶,支持单字段及多字段,不会在桶内进行排序。与SORT BY配合使用即为分桶后的排序。 注意事项 所排序的表必须是已经存在的,否则会出错。 举例 根据字段score对表student进行分桶。 1 2 SELECT *
datetrunc datetrunc函数用于计算将日期date按照datepart指定的时间单位进行截取后的日期值。 截取datepart之前的部分,除截取的部分外自动填充为默认值。可参考示例代码。 命令格式 datetrunc (string date, string datepart)
add_months add_months函数用于计算日期值增加指定月数后的日期。即start_date在num_months个月之后的date。 命令格式 add_months(string start_date, int num_months) 参数说明 表1 参数说明 参数
datetrunc datetrunc函数用于计算将日期date按照datepart指定的时间单位进行截取后的日期值。 截取datepart之前的部分,除截取的部分外自动填充为默认值。可参考示例代码。 命令格式 datetrunc (string date, string datepart)
如果需要确认DLI队列的运行状态,决定是否运行更多的作业时需要查看队列负载。 操作步骤 在控制台搜索“云监控服务 CES”。 图1 搜索CES 进入CES后,在页面左侧“云服务监控”列表中,单击“数据湖探索”。 图2 云服务监控 选择队列进行查看。 图3 查看队列负载 父主题: DLI弹性资源池和队列类
add_months add_months函数用于计算日期值增加指定月数后的日期。即start_date在num_months个月之后的date。 命令格式 add_months(string start_date, int num_months) 参数说明 表1 参数说明 参数
]; 关键字 DISTRIBUTE BY:根据指定的字段进行分桶,支持单字段及多字段,不会在桶内进行排序。与SORT BY配合使用即为分桶后的排序。 注意事项 所排序的表必须是已经存在的,否则会出错。 举例 根据字段score对表student进行分桶。 1 2 SELECT *
按照如下方式查看taskmanager.out文件中的数据结果: 登录DLI管理控制台,选择“作业管理 > Flink作业”。 单击对应的Flink作业名称,选择“运行日志”,单击“OBS桶”,根据作业运行的日期,找到对应日志的文件夹。 进入对应日期的文件夹后,找到名字中包含“taskmanager”的文件夹进入,下载获取taskmanager
将写好的自定义函数打成JAR包,并上传到OBS上。 在DLI管理控制台的左侧导航栏中,单击数据管理>“程序包管理”,然后点击创建,并使用OBS中的jar包创建相应的程序包。 在DLI管理控制台的左侧导航栏中,单击作业管理>“Flink作业”,在需要编辑作业对应的“操作”列中,单击“编辑”,进入作业编辑页面。
存在唯一名称的全局变量,则具备删除权限即的用户均可删除该全局变量。 变量删除后,SQL中将无法使用该变量。 全局变量权限管理 针对不同用户,可以通过权限设置分配不同的全局变量,不同用户之间互不影响。管理员用户和全局变量的所有者拥有所有权限,不需要进行权限设置且其他用户无法修改其全局变量权限。
管理SQL作业 在SQL作业列表页面查看作业的基本信息 DLI SQL作业管理页面显示所有SQL作业,作业数量较多时,系统分页显示,可根据需要跳转至指定页面。您可以查看任何状态下的作业。作业列表默认按创建时间降序排列。 表1 作业管理参数 参数 参数说明 队列 作业所属队列的名称。
文件系统输出流(推荐) 功能描述 创建sink流将数据输出到分布式文件系统(HDFS)或者对象存储服务(OBS)等文件系统。数据生成后,可直接对生成的目录创建非DLI表,通过DLI SQL进行下一步处理分析,并且输出数据目录支持分区表结构。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。