检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
shuffle数据优化 提升资源扩缩容的稳定性,当shuffle文件不需要时清理Executor。 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释
from testcsvdata2source; 图3 查询结果 在OBS桶的“obs://dli-test-021/data”目录下刷新后查询,生成了csv数据文件,文件内容为insert插入的数据内容。 图4 查询结果 指定的OBS数据目录包含数据文件。 在OBS桶“dli-test
p_agg()也同样能用于生成map。 SELECT map(ARRAY[1,3],ARRAY[2,4]);-- {1=2, 3=4} map_from_entries(array(row(K, V))) -> map(K, V) 描述:使用给定数组生成map。 SELECT m
查看对应作业的DAG图,判断是否有BroadcastNestedLoopJoin节点。 图8 作业的DAG图。 如果存在广播,则参考SQL作业中存在join操作,因为自动广播导致内存不足,作业一直运行中处理。 可能原因2:数据倾斜 判断当前作业运行慢是否是数据倾斜导致: 登录DLI控制台,单击“作业管理 >
connector.table 是 读取数据库中的数据所在的表名 connector.driver 否 连接数据库所需要的驱动。若未配置,则会自动通过URL提取 connector.username 否 数据库认证用户名,需要和'connector.password'一起配置 connector
量较多时,系统分页显示,您可以查看任何状态下的作业。 表1 作业管理参数 参数 参数说明 作业ID 所提交Spark作业的ID,由系统默认生成。 名称 所提交Spark作业的名称。 队列 所提交Spark作业所在的队列。 用户名 执行Spark作业的用户名称。 状态 作业的状态信息,包括如下。
kafka参数文档中的参数名。 Flink会自动移除选项名中的 "properties." 前缀,并将转换后的键名以及值传入KafkaClient。 例如:您可以通过 'properties.allow.auto.create.topics' = 'false' 来禁止自动创建 topic。 但是'key
kafka参数文档中的参数名。 Flink会自动移除选项名中的 "properties." 前缀,并将转换后的键名以及值传入 KafkaClient。 例如:您可以通过 'properties.allow.auto.create.topics' = 'false' 来禁止自动创建 topic。 但是'key
配置为-1代表不限制返回的条数。 是 50000 kyuubi.engine.dli.small.file.merge 配置是否开启小文件自动合并。默认为false,代表不开启。 true:开启 false:不开启 是 true kyuubi.engine.dli.bi.type
connector.key-column 否 table存储模式下可配置,将该字段值作为redis中的ext-key,未配置时,ext-key为生成的uuid。 示例 从Redis中读取数据。 create table redisSource( car_id STRING, car_owner
insert into test_parquet_hw select * from test_csv_hw 检查结果,如图5所示,系统自动创建了一个文件用于保存结果。 图5 保存Parquet数据
欠费影响(适用于按需计费模式) 图4描述了按需计费的DLI资源各个阶段的状态。购买后,在计费周期内资源正常运行,此阶段为有效期;当您的账号因按需资源自动扣费导致欠费后,账号将变成欠费状态,资源将陆续进入宽限期和保留期。 图4 按需计费的DLI资源生命周期 欠费预警 系统会在每个计费周期后的
表6 job_config参数说明 参数名称 是否必选 参数类型 说明 checkpoint_enabled 否 Boolean 是否开启作业自动快照功能。 true:开启 false:关闭 默认为“false”。 checkpoint_mode 否 String 快照模式,。两种可选:
DLI表数据的生命周期管理功能(dli.lifecycle.days),指表(分区)数据从最后一次更新的时间算起,在经过指定的时间后没有变动,则此表(分区)DLI自动回收。这个指定的时间就是生命周期。生命周期管理功能方便您释放存储空间,简化回收数据的流程。同时提供数据备份与恢复功能,避免因误操作丢失数据。
'datagen', 'rows-per-second' = '1', --每秒生成一条数据 'fields.user_id.kind' = 'random', --为字段user_id指定random生成器 'fields.user_id.length' = '3' --限制user_id长度为3
SERIALIZABLE 默认值为“READ_UNCOMMITTED”。 注意事项 创建RDS关联表时,不需要指定关联表的Schema。DLI会自动获取RDS中对应参数"dbtable"中的表的Schema。 示例 访问MySQL 1 2 3 4 5 6 7 CREATE TABLE IF
安全CSS集群的证书,生成的keystore文件在OBS上的地址。 es.net.ssl.keystore.pass 安全CSS集群的证书,生成的keystore文件时的密码。 es.net.ssl.truststore.location 安全CSS集群的证书,生成的truststore文件在OBS上的地址。
队列和弹性资源池状态正常,资源未被冻结。 弹性资源池扩缩容 弹性资源池CU设置、弹性资源池中添加/删除队列、修改弹性资源池中队列的扩缩容策略、系统自动触发弹性资源池扩缩容时都会引起弹性资源池CU的变化,部分情况下系统无法保证按计划扩容/缩容至目标CUs: 弹性资源池扩容时,可能会由于物理
配置为-1代表不限制返回的条数。 是 50000 kyuubi.engine.dli.small.file.merge 配置是否开启小文件自动合并。默认为false,代表不开启。 true:开启 false:不开启 是 true kyuubi.engine.dli.bi.type
再上线),建议您使用包年/包月计费模式,可以更优惠。同时,按需计费的队列,在空闲1小时后(队列空闲是指该队列上没有正在运行的作业),系统会自动释放计算资源,再次使用时,需要重新分配计算资源,可能会耗费5~10min时间。使用包年/包月计费模式则可避免这种情况,节省等待时间。 产品定价