检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
L作业会被系统按超时取消处理。 用户可以通过dli.sql.job.timeout(单位是秒)参数配置超时时间。 DLI支撑本地测试Spark作业吗? DLI暂不支持本地测试Spark作业,您可以安装DLI Livy工具,通过Livy工具提供的交互式会话能力调测Spark作业。 推荐使用使用Livy提交Spark
新增的扩缩容时间段最小和最大CU 默认扩缩容时间段 默认时间段优先级 默认扩缩容时间段最小和最大CU 备注 test_a [00:00,09:00) 20 最小CU:64 最大CU:128 新增的扩缩容时间段[00:00,09:00)以外的时间段范围 5 最小CU:16 最大CU:32
2019.1或其他兼容版本。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 开发流程 DLI下UDF函数开发流程参考如下: 图1 开发流程 表2 开发流程说明 序号 阶段 操作界面 说明 1 新建Maven工程,配置pom文件 IntelliJ IDEA
Boolean 是否可停止。 state 否 String 作业运行状态。 start-time 否 Long 作业启动时间。 end-time 否 Long 作业停止时间。 duration 否 Long 作业运行时长。 请求示例 无 响应示例 { "is_success":
用2019.1或其他兼容版本。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 开发流程 DLI下UDTF函数开发流程参考如下: 图1 UDTF开发流程 表2 开发流程说明 序号 阶段 操作界面 说明 1 新建Maven工程,配置pom文件 IntelliJ
分计算节点处理的数据量远大于其他节点,从而影响整个计算过程的处理效率。 例如观察到SQL执行时间较长,进入SparkUI查看对应SQL的执行状态,如图1所示,查看到一个stage运行时间超过20分钟且只剩余一个task在运行,即为数据倾斜的情况。 图1 数据倾斜样例 常见数据倾斜场景
019.1或其2019.1往后的版本。 安装Maven 开发环境的基本配置(下载并安装 Maven)。用于项目管理,贯穿软件开发生命周期。 开发流程 DLI下UDAF函数开发流程参考如下: 图1 UDAF开发流程 表2 开发流程说明 序号 阶段 操作界面 说明 1 新建Maven工程,配置pom文件
如何合并小文件 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 推荐使用临时表进行数据中转 自读自写在突发异常场景下存在数据丢失的风险 执行SQL: INSERT OVERWRITE TABLE tablename select
BlackHole结果表 功能描述 BlackHole Connector允许接收所有输入记录,常用于高性能测试和UDF 输出,其不是实质性Sink。Blackhole结果表是系统内置的Connector。 例如,如果您在注册其他类型的Connector结果表时报错,但您不确定是
BlackHole 功能描述 BlackHole Connector允许接收所有输入记录,常用于高性能测试和UDF输出,其不是实质性Sink。Blackhole结果表是系统内置的Connector。 例如,如果您在注册其他类型的Connector结果表时报错,但您不确定是系统问题
keystore.jks文件和truststore.jks文件,并将其上传至OBS桶中。 开发说明-https off 如果没有开启https访问的话,不需要去生成keystore.jks和truststore.jks文件的,只需要设置好ssl访问和账号密码参数即可。 构造依赖信息,创建SparkSession
后续章节操作都需要在testdb数据库下进行操作。 DataSource和Hive两种语法创建OBS表的区别 DataSource语法和Hive语法主要区别在于支持的表数据存储格式范围、支持的分区数等有差异。两种语法创建OBS表主要差异点参见表1。 表1 DataSource语法和Hive语法创建OBS表的差异点 语法
spark.dli.job.agency.name=agency 示例代码 示例代码请参考使用Spark Jar作业读取和查询OBS数据。 父主题: Spark Jar作业开发指南
长度范围为3到63个字符,支持小写字母、数字、中划线(-)、英文句号(.)。 禁止两个英文句号(.)或英文句号(.)和中划线(-)相邻,禁止以英文句号(.)和中划线(-)开头或结尾。 禁止使用IP地址。 如果名称中包含英文句号(.),访问桶或对象时可能会进行安全证书校验。 导入
current_timestamp CURRENT_TIMESTAMP函数用于返回当前时间戳。 命令格式 current_timestamp() 参数说明 无 返回值说明 返回TIMESTAMP类型的时间戳。 示例代码 返回1692002816300。 select current_timestamp();
事实表采用日期分区表,维度表采用非分区或者大颗粒度的日期分区 是否采用分区表要根据表的总数据量、增量和使用方式来决定。从表的使用属性看事实表和维度表具有的特点: 事实表:数据总量大,增量大,数据读取多以日期做切分,读取一定时间段的数据。 维度表:总量相对小,增量小,多以更新操作为主,数据读取会是全表读取,或者按照对应业务ID过滤。
结果必须根据start.timestamp和end.timestamp进行过滤,如果没有指定end.timestamp,则只需要根据start.timestamp进行过滤。 提交其他SQL时,需要清除上述配置参数,避免影响其他任务执行结果。 父主题: Spark on Hudi开发规范
// SASL_SSL相关配置项。设置jaas账号和密码,username和password为创建Kafka实例过程中开启SASL_SSL时填入的用户名和密码, // 或者创建SASL_SSL用户时设置的用户名和密码。格式如下, // org.apache
跨源连接状态 图13 详情 测试队列与RDS、DMS实例连通性。 单击“队列管理”,选择您所使用的队列,单击“操作”列中的“更多”>“测试地址连通性”。 图14 检测地址连通性 输入DMS Kafka实例连接地址和步RDS MySQL实例内网地址,进行网络连通性测试。 测试结果显示可达,则D
max.commits = hoodie.keep.min.commits + 20 执行compaction后再执行clean和archive,由于clean和archivelog对资源要求较小,为避免资源浪费,使用DataArts调度的话可以compaction作为一个任务,cle