-
使用SDK查询SQL作业结果,如何设置超时时间? - 数据湖探索 DLI
使用SDK查询SQL作业结果,如何设置超时时间? 查询SQL作业结果SDK,在提交时会确认作业状态,系统设置的超时时间是300s,如果作业不是“FINISHED”状态,在达到300s后会抛出异常超时的错误。 建议使用getJobId()获取jobid,然后调用queryJobResultInfo(String
-
API接口返回的中文字符为乱码,如何解决? - 数据湖探索 DLI
API接口返回的中文字符为乱码,如何解决? DLI接口返回的结果编码格式为“UTF-8”,在调用接口获取返回结果时需要对返回的信息编码转换为“UTF-8”。 例如,参考如下实现对返回的response.content内容做编码格式转换,确保返回的中文格式不会乱码。 print(response
-
批作业SQL常用配置项说明 - 数据湖探索 DLI
批作业SQL常用配置项说明 本章节为您介绍DLI 批作业SQL语法的常用配置项。 表1 常用配置项 名称 默认值 描述 spark.sql.files.maxRecordsPerFile 0 要写入单个文件的最大记录数。如果该值为零或为负,则没有限制。 spark.sql.shuffle
-
Spark如何将数据写入到DLI表中 - 数据湖探索 DLI
Spark如何将数据写入到DLI表中 使用Spark将数据写入到DLI表中,主要设置如下参数: fs.obs.access.key fs.obs.secret.key fs.obs.impl fs.obs.endpoint 示例如下: import logging from operator
-
Flink SQL作业的消费能力如何,即一天可以处理多大的数据量? - 数据湖探索 DLI
Flink SQL作业的消费能力如何,即一天可以处理多大的数据量? Flink SQL作业的消费能力与源端的数据发送、队列大小、作业参数配置均有关系,每秒10M峰值。 父主题: Flink SQL作业相关问题
-
如何判断当前DLI队列中的作业是否有积压? - 数据湖探索 DLI
CES”,进入云监控服务控制台。 在左侧导航栏选择“云服务监控 > 数据湖探索”,进入到云服务监控页面。 在云服务监控页面,“名称”列对应队列名称,单击对应队列名称,进入到队列监控页面。 在队列监控页面,分别查看以下指标查看当前队列的作业运行情况。 “提交中作业数”:展示当前队列中状态为“提交中”的作业数量。
-
JDBC源表 - 数据湖探索 DLI
JDBC源表 功能描述 JDBC连接器是Flink内置的Connector,用于从数据库读取相应的数据。 前提条件 要与实例建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。
-
如何打通DLI和数据源的网络? - 数据湖探索 DLI
如何打通DLI和数据源的网络? DLI 增强型跨源连接底层采用对等连接,直接打通DLI集群与目的数据源的VPC网络,通过点对点的方式实现数据互通。 创建增强型跨源连接的操作步骤请参考创建增强型跨源连接。 父主题: 跨源连接问题
-
关联OBS桶中嵌套的JSON格式数据如何创建表 - 数据湖探索 DLI
关联OBS桶中嵌套的JSON格式数据如何创建表 DLI支持关联OBS桶中嵌套的JSON格式数据,使用异步模式建表即可。 建表语句如下: create table tb1 using json options(path 'obs://....') 父主题: 作业开发
-
使用DLI运行几万个作业,如何管理? - 数据湖探索 DLI
使用DLI运行几万个作业,如何管理? 用户需要使用DLI运行几万个作业,建议如下: 将几万个作业根据不同的类型分组,不同类型的作业通过不同的队列运行。 或者创建IAM子用户,将不同类型的作业通过不同的用户执行。具体请参考《数据湖探索用户指南》。 父主题: 作业管理
-
Kafka Sink配置发送失败重试机制 - 数据湖探索 DLI
Kafka Sink配置发送失败重试机制 问题描述 用户执行Flink Opensource SQL, 采用Flink 1.10版本。Flink Sink写Kafka报错后作业失败: Caused by: org.apache.kafka.common.errors.NetworkException:
-
配置DLI队列与内网数据源的网络联通 - 数据湖探索 DLI
> 待操作的集群名称 > 服务 > ZooKeeper > 实例”,根据“主机名称”和“业务IP”获取ZooKeeper的主机信息。 在MRS Manager上,选择“集群 > 待操作的集群名称 > 服务 > ZooKeeper > 配置 > 全部配置”,搜索参数“clientP
-
Flink作业重启后,如何判断是否可以从checkpoint恢复 - 数据湖探索 DLI
Flink作业重启后,如何判断是否可以从checkpoint恢复 什么是从checkpoint恢复? Flink Checkpoint 是一种容错恢复机制。这种机制保证了实时程序运行时,遇到异常或者机器问题时能够进行自我恢复。 从checkpoint恢复的原则 通常当作业执行失败
-
如何避免字符码不一致导致的乱码 - 数据湖探索 DLI
如何避免字符码不一致导致的乱码 DLI只支持UTF-8文本格式,执行创建表和导入操作时,用户的数据需要是以UTF-8编码。 父主题: 运维指导
-
Flink Opensource SQL如何解析复杂嵌套 JSON? - 数据湖探索 DLI
Flink Opensource SQL如何解析复杂嵌套 JSON? kafka message { "id": 1234567890, "name": "swq", "date": "1997-04-25", "obj": { "time1": "12:12:12"
-
OBS表如何映射为DLI的分区表? - 数据湖探索 DLI
OBS表如何映射为DLI的分区表? 该示例将car_info数据,以day字段为分区字段,parquet为编码格式(目前仅支持parquet格式),转储数据到OBS。更多内容请参考《数据湖探索Flink SQL语法参考》。 1 2 3 4 5 6 7 8 9 10
-
SQL作业如何指定表的部分字段进行表数据的插入 - 数据湖探索 DLI
SQL作业如何指定表的部分字段进行表数据的插入 当前DLI不支持指定部分列字段进行表数据插入,执行插入操作需要所有表字段数据一起插入。 父主题: 作业开发
-
如何将老版本的Spark队列切换成通用型队列 - 数据湖探索 DLI
如何将老版本的Spark队列切换成通用型队列 当前DLI服务包括“SQL队列”和“通用队列”两种队列类型。 其中,“SQL队列”用于运行SQL作业,“通用队列”兼容老版本的Spark队列,用于运行Spark作业和Flink作业。 通过以下步骤,可以将老版本的“Spark队列”转换为新的“通用队列”。
-
Flink SQL中的temp流中数据是否需要定期清理,如何清理? - 数据湖探索 DLI
Flink SQL中的temp流中数据是否需要定期清理,如何清理? Flink SQL中的temp流类似于子查询,只是逻辑意义上的流,用于简化SQL逻辑,不会产生数据存储,因而不存在清理问题。 父主题: Flink SQL作业相关问题
-
DLI上已经创建好的表如何修改表字段名称? - 数据湖探索 DLI
DLI上已经创建好的表如何修改表字段名称? 当前DLI上已经创建好的表不支持修改表字段名称,即不支持修改表的列名。 可以通过重新创建表,定义新的表字段名称,再把旧表数据迁移到新表进行解决。 父主题: 作业管理