检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用DLI运行几万个作业,如何管理? 用户需要使用DLI运行几万个作业,建议如下: 将几万个作业根据不同的类型分组,不同类型的作业通过不同的队列运行。 或者创建IAM子用户,将不同类型的作业通过不同的用户执行。具体请参考《数据湖探索用户指南》。 父主题: 作业管理
入门实践 我们整理了从队列网络连通、不同类型的作业分析、数据迁移场景的常用开发指南和最佳实践内容,帮助您更好的使用DLI进行大数据分析和处理。 表1 DLI常用开发指南与最佳实践 场景 操作指导 描述 队列网络连通 配置DLI队列与内网数据源的网络连通 DLI在创建运行作业需要连
} ] } 访问和使用OBS的权限策略 适用场景:DLI Flink作业下载OBS对象、OBS/DWS数据源(外表)、日志转储、使用savepoint、开启checkpoint,DLI Spark作业下载OBS对象、读写OBS外表。 { "Version":
Slot”:每个TaskManager包含的Slot数量。 保存作业日志 否 设置是否将作业运行时的日志信息保存到OBS。 勾选后需配置下列参数: “OBS桶”:选择OBS桶用于保存用户作业日志信息。如果选择的OBS桶是未授权状态,需要单击“OBS授权”。 作业异常告警 否 设置是否将作
read 143805 bytes 问题原因 上述报错可能原因是当前导入的文件数据量较大,同时因为spark.sql.shuffle.partitions参数设置的并行度过大,导致缓存区大小不够而导入数据报错。 解决方案 建议可以尝试调小spark.sql.shuffle.partit
图2 车企数字化服务转型 大数据ETL处理 运营商大数据分析 运营商数据体量在PB~EB级,其数据种类多,有结构化的基站信息数据,非结构化的消息通信数据,同时对数据的时效性有很高的要求,DLI服务提供批处理、流处理等多模引擎,打破数据孤岛进行统一的数据分析。 优势 大数据ETL:具备
SQL作业分析OBS数据 DLI支持将数据存储到OBS上,后续再通过创建OBS表即可对OBS上的数据进行分析和处理。 本指导中的操作内容包括:创建OBS表、导入OBS表数据、插入和查询OBS表数据等内容来帮助您更好的在DLI上对OBS表数据进行处理。 前提条件 已创建OBS的桶。具体O
DLI SDK与API的对应关系 OBS授权 表1 OBS授权相关API&SDK的对应关系表 Class Method Java Method Python Method API Authorize OBS授权 authorizeBucket - POST /v1.0/{proj
0002: FileNotFoundException: getFileStatus on obs://xxx: status [404] 解决方案 请排查在同一时间点是否还有另外作业对当前报错作业操作的表信息有删除操作。 DLI不允许同时有多个作业在同一时间点对相同表进行读写操作,否则会造成作业冲突,导致作业运行失败。
实现方式不同。 另外,用户可使用其他API来对作业进行查询和管理。具体操作有: 查询作业状态 查询作业详细信息 查询作业结果-方式一(废弃) 导出查询结果 查询所有作业 取消作业(废弃) 该API当响应消息中“job_type”为“DCL”时,为同步操作。 本章节介绍的API已过
使用DLI进行电商BI报表分析 详细介绍 07 API&SDK 通过DLI开放的API和调用示例,您可以使用并管理队列,SQL作业,Spark作业和跨源作业等。您还可以直接调用DLI SDK提供的接口函数实现业务。 常用API API概览 权限相关API 队列相关API SQL作业相关API Spark作业相关API
使用Spark作业访问sftp中的文件,作业运行失败,日志显示访问目录异常 Spark作业不支持访问sftp,建议将文件数据上传到OBS,再通过Spark作业进行读取和分析。 Spark读取OBS文件数据,详见使用Spark Jar作业读取和查询OBS数据。 父主题: 作业运维报错
Flink与MRS Flink有什么区别? DLI Flink是天然的云原生基础架构。在内核引擎上DLI Flink进行了多处核心功能的优化,并且提供了企业级的一站式开发平台,自带开发和运维功能,免除自建集群运维的麻烦;在connector方面除了支持开源connector之外,还
关联OBS桶中嵌套的JSON格式数据如何创建表 DLI支持关联OBS桶中嵌套的JSON格式数据,使用异步模式建表即可。 建表语句如下: create table tb1 using json options(path 'obs://....') 父主题: 作业开发
构造请求 本章节介绍REST API请求的组成,并以调用IAM服务的获取用户Token来说明如何调用API,该API获取用户的Token,Token可以用于调用其他API时鉴权。 您还可以通过这个视频教程了解如何构造请求调用API:https://bbs.huaweicloud.com/videos/102987
怎样升级DLI作业的引擎版本 DLI提供了Spark和Flink计算引擎,为用户提供了一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务,当前,Flink计算引擎推荐版本:Flink 1.15,Spark计算引擎推荐版本: Spark 3.3.1。 本节操作介绍如何升级作业的引擎版本。
上传Jar包到OBS OBS控制台 将生成的UDTF函数Jar包文件上传到OBS目录下。 5 创建DLI的UDTF函数 DLI控制台 在DLI控制台的SQL作业管理界面创建使用的UDTF函数。 6 验证和使用DLI的UDTF函数 DLI控制台 在DLI作业中使用创建的UDTF函数。
eckpoint保存的OBS桶。手工停止Flink作业后,再次启动该Flink作业没有提示从哪个Checkpoint恢复。 解决方案 由于Flink Checkpoint和Savepoint生成机制及格式一致,因而,也可以通过Flink作业列表“操作”列中的“更多 > 导入保存点
本操作介绍获取Flink作业委托临时凭证的操作方法。 Spark作业场景 Spark Jar 使用DEW获取访问凭证读写OBS 访问OBS的AKSK为例介绍Spark Jar使用DEW获取访问凭证读写OBS的操作指导。 用户获取Spark作业委托临时凭证 本操作介绍获取Spark Jar作业委托临时凭证的操作方法。
户的使用的OBS桶名。 参数的值为用户定义在CSMS通用凭证中的键key, 其Key对应的value为用户的SK(Secret Access Key),需要具备访问OBS对应桶的权限。 flink.hadoop.fs.obs.security.provider 是 无 String