检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
存)。弹性资源池的单位为CU,1CU包含1CPU和4GB内存。 您可以在弹性资源池中创建多个队列, 队列之间的计算资源支持共享。 通过合理设置队列的计算资源池分配策略,提高计算资源利用率。 DLI弹性资源池之间为物理集群隔离,同一个弹性资源池中的队列之间为逻辑隔离。 建议您对测试
分配队列至项目 企业项目是一种云资源管理方式,企业可以根据组织架构规划企业项目,将分布在不同区域的资源按照企业项目进行统一管理,同时可以为每个企业项目设置拥有不同权限的用户组和用户。 DLI支持在创建队列时选择企业项目,本节操作为您介绍DLI队列资源如何绑定、修改企业项目。 当前仅支持对未加入弹性资源池的队列资源修改企业项目。
作业的名称。 作业异常告警 设置是否将作业异常告警信息,如作业出现运行异常或者欠费情况,以SMN的方式通知用户。 勾选后需配置下列参数: “SMN主题”: 选择一个自定义的SMN主题。如何自定义SMN主题,请参见《消息通知服务用户指南》中“创建主题”章节。 异常自动重启 设置是否启动异常自动
登录DLI管理控制台。 选择“资源管理 > 弹性资源池”。 进入弹性资源池列表页面,选择您需要查看的弹性资源池。 在列表页面的右上方单击可以自定义显示列,并设置表格内容显示规则、操作列显示规则。 在列表页面上方的搜索区域,您可以名称和标签筛选需要的弹性资源池。 单击展开弹性资源池基本信息卡片,查看弹性资源池详细信息。
enterprise_project_id 否 String 企业项目ID。 "0”表示default,即默认的企业项目。 说明: 开通了企业管理服务的用户可设置该参数绑定指定的项目。 resource_type 否 String 资源类型。 vm:ecf集群 container:容器化集群(k8s)
"true") 如果CSS安全集群开启了HTTPS访问,此处需要设置为“true”,并且需要继续设置后面的安全证书、文件地址等参数。 如果CSS安全集群未开启HTTPS访问,此处需要设置为“false”,则不需要设置后面安全证书、文件地址等参数。 .option("es.net.ssl
登录DLI管理控制台,在“SQL编辑器”中,单击“设置”。 在参数设置中,添加参数“spark.sql.forcePartitionPredicatesOnPartitionedTable.enabled”,值设置为“false”。 图1 参数设置 上述步骤参数设置完成后,则可以进行全表查询,不用查询表的时候要包含分区字段。
sql.shuffle.partitions参数设置的并行度过大,导致缓存区大小不够而导入数据报错。 解决方案 建议可以尝试调小spark.sql.shuffle.partitions参数值来解决缓冲区不足问题。具体该参数设置步骤如下: 登录DLI管理控制台,单击“作业管理 >
如果SQL语句中指定了表所在的数据库,则此处选择的数据库无效。 设置 包括设置“参数设置”和“标签”。 参数设置:以“key/value”的形式设置提交SQL作业的配置项。详细内容请参见《数据湖探索SQL语法参考》。 标签:以“key/value”的形式设置SQL作业的标签。 创建数据库和表。 您可以
入延迟,因而进行不阻塞摄入的异步Compaction很有意义。 如何执行Compaction 仅执行Schedule Spark SQL(设置如下参数,写数据时触发) hoodie.compact.inline=true hoodie.schedule.compact.only.inline=true
要去掉该标识。 设置spark.sql.autoBroadcastJoinThreshold=-1,具体操作如下: 登录DLI管理控制台,单击“作业管理 > SQL作业”,在对应报错作业的“操作”列,单击“编辑”进入到SQL编辑器页面。 单击“设置”,在参数设置中选择“spark
读取数据时,每一批次获取数据的记录数,默认值1000。设置越大性能越好,但占用内存越多,该值设置过大会有内存溢出的风险。 batchsize 写入数据时,每一批次写入数据的记录数,默认值1000。设置越大性能越好,但占用内存越多,该值设置过大会有内存溢出的风险。 truncate 执行
在GaussDB(DWS) 控制台设置会话闲置超时时长session_timeout,在闲置会话超过所设定的时间后服务端将主动关闭连接。 session_timeout默认值为600秒,设置为0表示关闭超时限制,一般不建议设置为0。 session_timeout设置方法如下: 登录GaussDB(DWS)
"[0:2]"时,表示读取的分区范围是1-3,包括分区1、分区2和分区3,范围设置要在dis相应通道的范围内。 connector.offset 否 用户可以根据需求设置该参数的数值,读取数据的起始位置,与start-time不能同时设置。 connector.start-time 否 DIS数据读取从该起始时间的数据。
读取数据时,每一批次获取数据的记录数,默认值1000。设置越大性能越好,但占用内存越多,该值设置过大会有内存溢出的风险。 batchsize 写入数据时,每一批次写入数据的记录数,默认值1000。设置越大性能越好,但占用内存越多,该值设置过大会有内存溢出的风险。 truncate 执行
多会导致性能问题,所以元数据文件数量最好控制在1000以内。 如何执行Archive 写完数据后archive Spark SQL(set设置如下参数,写数据时触发) hoodie.archive.automatic=true hoodie.keep.max.commits=30
eckPoint间隔为分钟级。 checkpoint容忍失败次数设置,execution.checkpointing.tolerable-failed-checkpoints。 Flink On Hudi作业建议设置checkpoint容忍次数多次,如100。 若需要使用Hive风格分区,需同时配置如下参数:
请勿将该OBS桶用作其它用途,避免出现作业结果混乱等问题。 OBS桶需要由用户主账户统一设置及修改,子用户无权限。 不配置DLI作业桶无法查看作业日志。 您可以通过配置桶的生命周期规则,定时删除桶中的对象或者定时转换对象的存储类别。 DLI的作业桶设置后请谨慎修改,否则可能会造成历史数据无法查找。 操作步骤
管理队列 查看队列的基本信息 队列权限管理 分配队列至项目 创建消息通知主题 队列标签管理 队列属性设置 测试地址连通性 删除队列 变更普通队列规格 普通队列弹性扩缩容 设置普通队列的弹性扩缩容定时任务 修改普通队列的网段 父主题: 创建弹性资源池和队列
ne顺序执行各个节点。请参考步骤4:作业编排。 测试作业运行:测试作业运行。请参考步骤5:测试作业运行。 设置作业调度与监控:设置作业调度属性与监控规则。请参考步骤6:设置作业周期调度和相关操作。 环境准备 DLI资源环境准备 配置DLI作业桶 使用DLI服务前需配置DLI作业桶