检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置DLI作业桶 使用DLI服务前需配置DLI作业桶,该桶用于存储DLI作业运行过程中产生的临时数据,例如:作业日志、作业结果。 本节操作指导您在DLI管理控制台的“全局配置 > 工程配置”页面配置DLI作业桶。 操作前准备 配置前,请先购买OBS桶或并行文件系统。 大数据场景推
浮点型 名称 描述 存储空间 取值范围 字面量 REAL 实数 32位 1.40129846432481707e-45 ~3.40282346638528860e+38,正或负 REAL DOUBLE 双精度浮点数,15到17个有效位,具体取决于使用场景,有效位位数并不取决于小数点位置
典型场景示例:迁移RDS数据至DLI 本文为您介绍如何通过CDM数据同步功能,迁移关系型数据库RDS数据至DLI。其他关系型数据库数据都可以通过CDM与DLI进行双向同步。 前提条件 已创建DLI的SQL队列。创建DLI队列的操作可以参考创建DLI队列。 创建DLI队列时队列类型需要选择为“SQL队列”。
VACUUM 命令功能 VACUUM命令用于删除表目录中不由 Delta 管理的所有文件,并删除不再处于表事务日志最新状态且超过保留期阈值的数据文件。默认阈值为 7 天。 注意事项 RETAIN num HOURS表示保留期阈值,建议设置为至少 7 天。 如果对 Delta 表运
管理Spark作业 查看Spark作业的基本信息 在总览页面单击“Spark作业”简介,或在左侧导航栏单击“作业管理”>“Spark作业”,可进入Spark作业管理页面。Spark作业管理页面显示所有的Spark作业,作业数量较多时,系统分页显示,您可以查看任何状态下的作业。 表1
使用SQL作业模板开发并提交SQL作业 为了便捷快速地执行SQL操作,DLI支持定制模板或将正在使用的SQL语句保存为模板。保存模板后,不需编写SQL语句,可通过模板直接执行SQL操作。 当前系统提供了多条标准的TPC-H查询语句模板,您可以按需选择自定义模板或系统模板创建SQL作业。
DLI计算引擎版本生命周期 版本号说明 DLI计算引擎版本号:格式为计算引擎名称 x.y.z,其中计算引擎分为Flink和Spark,版本号具体含义如图1所示。 图1 DLI计算引擎版本号 版本支持情况 Flink计算引擎推荐版本:Flink 1.15。 Spark计算引擎推荐版本:
查询SQL作业日志 操作场景 DLI作业桶用于存储DLI作业运行过程中产生的临时数据,例如:作业日志、作业结果。 本节操作指导您在DLI管理控制台配置DLI作业桶,并获取SQL作业日志的操作方法。 使用须知 请勿将该DLI作业桶绑定的OBS桶用作其它用途,避免出现作业结果混乱等问题。
确认无误后单击“立即购买”进入规格确认界面。 单击“提交”,系统开始自动创建CDM集群,在“集群管理”界面可查看创建进度。 步骤2:创建数据源与CDM的数据连接 本例以MySQL数据源为例,介绍创建数据源与CDM的数据连接的操作步骤。 进入CDM主界面,单击左侧导航上的“集群管理”,找到步骤1:创建CDM集群章节创建的集群“cdm-aff1”。
查询Spark作业日志 操作场景 DLI作业桶用于存储DLI作业运行过程中产生的临时数据,例如:作业日志、作业结果。 本节操作指导您在DLI管理控制台配置DLI作业桶,并获取Spark作业日志的操作方法。 使用须知 请勿将该DLI作业桶绑定的OBS桶用作其它用途,避免出现作业结果混乱等问题。
DLI Flink1.7版本停止服务(EOS)公告 公告说明 华为云于2022年12月31 00:00(北京时间)将DLI Flink 1.7版本停止服务(EOS)。 影响 DLI Flink 1.7版本停止服务(EOS)后,不再提供该软件版本相关的任何技术服务支持。建议您在执行
执行SQL作业时产生数据倾斜怎么办? 什么是数据倾斜? 数据倾斜是在SQL作业执行中常见的问题,当数据分布不均匀的情况下,一部分计算节点处理的数据量远大于其他节点,从而影响整个计算过程的处理效率。 例如观察到SQL执行时间较长,进入SparkUI查看对应SQL的执行状态,如图1所
表相关 创建DLI表 DLI提供创建DLI表的接口。您可以使用该接口创建数据存储在DLI内部的表。示例代码如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
开启Flink作业动态扩缩容 操作场景 在实际作业运行中,由于作业的数据流量变化,导致所需计算资源不同,造成流量较小时计算资源浪费,流量较大时计算资源不足以满足计算所需。 DLI提供的动态扩缩容功能可以根据当前作业的负载情况,例如:数据输入输出量、数据输入输出速率、反压等情况,动
OpenTSDB结果表 功能描述 OpenTSDB是基于HBase分布式的 ,可伸缩的时间序列数据库。OpenTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性,可用于系统监控和测量、物联网数据、金融数据和科学实验结果数据的收集监控。
典型场景示例:配置DLI 与公网网络连通 操作场景 公网数据源指的是可以通过互联网访问的数据源。这些数据源资源有一个公网IP地址,配置DLI与公网网络联通可以实现对这些数据源的访问。 本节提供了详细的操作指导,介绍如何通过设置SNAT规则和配置路由信息,实现DLI服务与公网的网络连接。