-
如何获取DLI作业样例(Demo) - 数据湖探索 DLI
如何获取DLI作业样例(Demo) 为了方便用户更好地使用DLI,DLI服务提供了供作业开发的Demo样例,您可以通过DLI样例代码获取。 该样例代码的目录内容介绍如下: dli-flink-demo:开发Flink作业时的样例代码参考。例如,样例代码实现读取Kafka源表数据写
-
关联OBS桶中嵌套的JSON格式数据如何创建表 - 数据湖探索 DLI
关联OBS桶中嵌套的JSON格式数据如何创建表 DLI支持关联OBS桶中嵌套的JSON格式数据,使用异步模式建表即可。 建表语句如下: create table tb1 using json options(path 'obs://....') 父主题: 作业开发
-
Spark如何将数据写入到DLI表中 - 数据湖探索 DLI
Spark如何将数据写入到DLI表中 使用Spark将数据写入到DLI表中,主要设置如下参数: fs.obs.access.key fs.obs.secret.key fs.obs.impl fs.obs.endpoint 示例如下: import logging from operator
-
通用队列操作OBS表如何设置AK/SK - 数据湖探索 DLI
通用队列操作OBS表如何设置AK/SK (推荐)方案1:使用临时AK/SK 建议使用临时AK/SK,获取方式可参见统一身份认证服务_获取临时AK/SK。 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 表1
-
数据湖探索监控指标说明及查看指导 - 数据湖探索 DLI
queue_cpu_usage 队列CPU使用率 展示用户队列的CPU使用率。 0~100 队列 5分钟 queue_disk_usage 队列磁盘使用率 展示用户队列的磁盘使用率。 0~100 队列 5分钟 queue_disk_used 队列磁盘使用率最大值 展示用户队列的磁盘使用率的最大值。 0~100
-
使用SDK相关问题 - 数据湖探索 DLI
使用SDK相关问题 使用SDK查询SQL作业结果,如何设置超时时间? 服务器:请求dli.xxx,unable to resolve host address, 如何解决?
-
如何实现跨区域访问数据 - 数据湖探索 DLI
如何实现跨区域访问数据 打通不同区域间的VPC网络,具体请参考《跨区域同账号VPC互通》或《跨区域跨账号VPC互通》。 在DLI中创建增强型跨源链接,绑定队列。具体请参考《增强型跨源连接》。 添加DLI的路由。具体请参考《增强型跨源连接》。 父主题: 跨源分析问题
-
如何在DLI中运行复杂PySpark程序? - 数据湖探索 DLI
知不到底层的计算资源,那如何来保证用户可以更好的运行他的程序呢? DLI服务在其计算资源中已经内置了一些常用的机器学习的算法库(具体可以参考”数据湖探索 DLI > 用户指南> 数据管理> 程序包管理> 内置依赖包”),这些常用算法库满足了大部分用户的使用场景。对于用户的PySp
-
Flink作业运行异常,如何定位 - 数据湖探索 DLI
Flink作业运行异常,如何定位 在“Flink作业”管理页面,对应作业“操作”列单击“编辑”按钮,在作业运行界面确认作业是否勾选“保存作业日志”参数。 图1 保存作业日志 是,则执行3。 否,则运行日志不会转储OBS桶,需要先执行2保存作业运行日志。 在作业运行界面勾选“保存作
-
Flink作业重启后,如何判断是否可以从checkpoint恢复 - 数据湖探索 DLI
Flink作业重启后,如何判断是否可以从checkpoint恢复 什么是从checkpoint恢复? Flink Checkpoint 是一种容错恢复机制。这种机制保证了实时程序运行时,遇到异常或者机器问题时能够进行自我恢复。 从checkpoint恢复的原则 通常当作业执行失败
-
Flink作业重启后,如何保证不丢失数据? - 数据湖探索 DLI
数据不重复,建议使用带主键数据库或者文件系统作为目标数据源,否则下游处理业务需要加上去重逻辑(最新成功Checkpoint记录位点到异常时间段内的数据会重复消费)。 图1 Flink作业配置参数 对于Flink Jar作业,您需要参考《Flink 自定义作业如何配置checkpo
-
Flink作业如何进行性能调优 - 数据湖探索 DLI
Flink作业如何进行性能调优 概念说明及监控查看 消费组积压 消费组积压可通过topic最新数据offset减去该消费组已提交最大offset计算得出,说明的是该消费组当前待消费的数据总量。 如果Flink作业对接的是kafka专享版,则可通过云监控服务(CES)进行查看。具体可选择“云服务监控
-
使用咨询 - 数据湖探索 DLI
使用咨询 Spark作业使用咨询 父主题: Spark作业相关问题
-
使用咨询 - 数据湖探索 DLI
使用咨询 SQL作业使用咨询 父主题: SQL作业相关问题
-
DLI如何访问OBS桶中的数据 - 数据湖探索 DLI
DLI如何访问OBS桶中的数据 创建OBS表。 具体语法请参考《数据湖探索SQL语法参考》。 添加分区。 具体语法请参考《数据湖探索SQL语法参考》。 往分区导入OBS桶中的数据。 具体语法请参考《数据湖探索SQL语法参考》。 查询数据。 具体语法请参考《数据湖探索SQL语法参考》。
-
约束与限制 - 数据湖探索 DLI
约束与限制 您能创建的资源的数量与配额有关系,如果您想查看服务配额、扩大配额,具体请参见《如何申请扩大配额》。 更详细的限制请参见具体API的说明。 父主题: API使用前必读
-
Flink作业提交错误,如何定位 - 数据湖探索 DLI
Flink作业提交错误,如何定位 在Flink作业管理页面,将鼠标悬停到提交失败的作业状态上,查看失败的简要信息。 常见的失败原因可能包括: CU资源不足:需扩容队列。 生成jar包失败:检查SQL语法及UDF等。 如果信息不足以定位或者是调用栈错误,可以进一步单击作业名称,进入
-
SQL作业运行慢如何定位 - 数据湖探索 DLI
SQL作业运行慢如何定位 作业运行慢可以通过以下步骤进行排查处理。 可能原因1:FullGC原因导致作业运行慢 判断当前作业运行慢是否是FullGC导致: 登录DLI控制台,单击“作业管理 > SQL作业”。 在SQL作业页面,在对应作业的“操作”列,单击“更多 > 归档日志”。
-
Flink Jar作业是否支持上传配置文件,要如何操作? - 数据湖探索 DLI
Jar写入数据到OBS开发指南。 配置文件使用方法 方案一:直接在main函数里面加载文件内容到内存,然后广播到各个taskmanager,这种方式适合那种需要提前加载的少量变量。 方案二:在open里面初始化算子的时候加载文件,可以使用相对路径/绝对路径的方式 以kafka s
-
Flink作业设置“异常自动重启” - 数据湖探索 DLI
登录DLI控制台,选择“作业管理”>“Flink作业”。 在Flink作业编辑页面,勾选“异常自动重启”。例如,图1所示。 图1 Flink SQL作业编辑界面 父主题: 使用咨询