检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
“提交中作业数”:展示当前队列中状态为“提交中”的作业数量。 “运行中作业数”:展示当前队列中状态为“运行中”的作业数量。 “已完成作业数”:展示当前队列中状态为“已成功”的作业数量。 图1 查看队列监控指标 父主题: DLI弹性资源池和队列类
假设您在2023/03/08 15:50:04购买了包年/包月弹性资源池(CU范围:64CUs),购买时长为一个月,在资源运行一段时间后发现使用过程中大部分时间CU数在128CU以上(假设每天累计12个小时实际CUs为128CUs,超出规格64CUs。)
DataSource语法和Hive语法主要区别在于支持的表数据存储格式范围、支持的分区数等有差异,详细请参考语法格式和注意事项说明。 推荐使用OBS并行文件系统进行存储。
DataSource语法和Hive语法主要区别在于支持的表数据存储格式范围、支持的分区数等有差异,详细请参考语法格式和注意事项说明。 推荐使用OBS并行文件系统进行存储。
迁移数据场景概述 为了将分散在不同系统中的数据迁移到DLI,确保数据可以在DLI集中分析和管理,您可以通过云数据迁移服务CDM等迁移工具迁移数据至DLI,再使用DLI提交作业分析数据。 CDM支持数据库、数据仓库、文件等多种类型的数据源,通过可视化界面对数据源迁移任务进行配置,提高数据迁移和集成的效率
抽取并发数:设置同时执行的抽取任务数。这里保持默认值“1”。 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可通过该参数配置,写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可,不记录脏数据。
RDS表有自增主键时怎样在DLI插入数据? 在DLI中创建关联RDS表时,如果RDS表包含自增主键或其他自动填充字段,您在DLI中插入数据时可以采取以下措施: 插入数据时省略自增字段:在DLI中插入数据时,对于自增主键字段或其他自动填充的字段,您可以在插入语句中省略这些字段。数据库会自动为这些字段生成值
选择“作业配置信息 > 资源配置” 查看作业的CU数量,即作业占用资源总CUs数。 该CUs数可以编辑作业页面进行配置,CUs数量 = 管理单元 + (算子总并行数 / 单TM Slot数) * 单TM所占CUs数。
配置DLI读写外部数据源数据的操作流程 DLI执行作业需要读写外部数据源时需要具备两个条件: 打通DLI和外部数据源之间的网络,确保DLI队列与数据源的网络连通。 妥善保存数据源的访问凭证确保数据源认证的安全性,便于DLI安全访问数据源。 本节操作介绍配置DLI读写外部数据源数据操作流程
程序包管理概述 在执行DLI作业前需要将UDF Jar包或Jar作业程序包上传到云平台进行统一的管理和维护。 有以下两种方式管理程序包: (推荐使用)上传至OBS管理程序包:提前将对应的jar包上传至OBS桶中,在作业配置时选择对应的OBS路径。 (DLI程序包功能即将停用)上传至
这两种采样方法都不允许限制结果集返回的行数。 BERNOULLI 每一行都将基于指定的采样率选择到采样表中。当使用Bernoulli方法对表进行采样时,将扫描表的所有物理块并跳过某些行(基于采样百分比和运行时计算的随机值之间的比较)。结果中包含一行的概率与任何其他行无关。
SQL作业执行完成后,修改表名导致datasize不正确怎么办? 在执行SQL作业后立即修改表名,可能会导致表的数据大小结果不正确。 这是因为DLI在执行SQL作业时,会对表进行元数据更新,如果在作业执行完成前修改了表名,会和作业的元数据更新过程冲突,从而影响对数据大小的判断。 为了避免这种情况
注意事项 在全天的任意一个时间段内,弹性资源池中所有队列的最小CU数之和需要小于等于弹性资源池的最小CU数。 在全天的任意一个时间段内,弹性资源池中任意一个队列的最大CU必须小于等于弹性资源池的最大CU。
确认表内桶数 Hudi表的桶数设置,关系到表的性能,需要格外引起注意。 以下几点,是设置桶数的关键信息,需要建表前确认。
根据如下公式,配置作业的“CU数量”、“管理单元”与“最大并行数”: CU数量 = 管理单元 + (算子总并行数 / 单TM Slot数) * 单TM所占CU数 例如:CU数量为9CU,管理单元为1CU,最大并行数为16,则计算单元为8CU。
管理单元和TaskManager的内存总和= 实际TM数 * 设置的单个TM的内存 + 管理单元内存 如果配置了单 TM Slot数,实际TM数 = 并行数 / 单 TM Slot数。
示例 对表student_info按字段name进行分组,计算每组中记录数,若其记录数等于子查询中表course_info的记录数,返回表student_info中字段name等于表course_info字段name的记录数。
根据如下公式,配置作业的“CU数量”、“管理单元”与“最大并行数”: CU数量 = 管理单元 + (算子总并行数 / 单TM Slot数) * 单TM所占CU数 例如:CU数量为9CU,管理单元为1CU,最大并行数为16,则计算单元为8CU。
num PRECEDING:定义窗口的下限,即窗口从当前行向前数num行处开始。 UNBOUNDED PRECEDING:表示窗口没有下限。 num FOLLOWING:定义窗口的上限,即窗口从当前行向后数num行处结束。
当运行作业的spark driver任务数超过“单spark driver实例最大并发数”的值时,作业将会分配到预先启动的spark driver上面。