检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
获取DLI基础镜像。 使用Dockerfile将作业运行需要的依赖(文件、jar包或者软件)打包到镜像中,生成自定义镜像。 将镜像发布到SWR(容器镜像服务)中。 在DLI服务作业编辑页面选择自己生成的镜像,运行作业。 查看作业执行情况。 获取DLI基础镜像 表1 获取DLI基础镜像 镜像类型
在左侧导航栏选择“数据库”页签,鼠标左键单击需要导出数据的表对应的数据库名,进入“表”区域。 鼠标左键单击需要导出数据的表(Managed表,即DLI表)右侧的,在列表菜单中选择“导出”,选择弹出“导出数据”页面。 图1 Managed表导出 在“导出数据”对话框,参考表1填写导出数据相关信息。 图2 导出数据 表1
导出SQL作业结果 导出作业结果是将SQL作业分析后的数据结果按指定格式存储到指定位置。 DLI默认将SQL作业结果存储在DLI作业桶中。同时也支持下载作业结果到本地或导出作业结果到指定的OBS桶。 导出作业结果到DLI作业桶 DLI在指定了一个默认的OBS桶作为作业结果的存储位置,请在DLI管理控制台的“全局配置
导出查询结果 功能介绍 该API用于将SQL语句的查询结果导出到OBS对象存储中,只支持导出“QUERY”类型作业的查询结果。 该API为异步操作。 目前只支持导出数据到OBS中,且导出的路径必须指定到文件夹级别。OBS路径中不支持逗号,且其中的桶名不能以正则格式“.[0-9]+(
导出数据(废弃) 功能介绍 该API用于从DLI表中导出数据到文件。 该API为异步操作。 目前只支持从DLI表导出数据到OBS中,且导出的路径必须指定到文件夹级别。OBS路径中不支持逗号,且其中的桶名不能以正则格式“.[0-9]+(.*)”结尾,即,若桶名包含“.”, 则最后一个“
导出查询结果 功能描述 INSERT OVERWRITE DIRECTORY用于将查询结果直接写入到指定的目录,支持按CSV、Parquet、ORC、JSON、Avro格式进行存储。 语法格式 1 2 3 4 INSERT OVERWRITE DIRECTORY path USING
如何调用API 构造请求 认证鉴权 返回结果
将Spark作业结果存储在MySQL数据库中,缺少pymysql模块,如何使用python脚本访问MySQL数据库? 缺少pymysql模块,可以查看是否有对应的egg包,如果没有,在“程序包管理”页面上传pyFile。具体步骤参考如下: 将egg包上传到指定的OBS桶路径下。 登录DLI管理控制台,单击“数据管理
即代表DLI表。 OBS表 OBS表的数据存储在OBS上,适用于对时延不敏感的业务,如历史数据统计分析等。 OBS表通常以对象的形式存储数据,每个对象包含数据和相关的元数据。 库表管理中表的列表页面,表类型为External,存储位置为OBS路径的即代表OBS表。 视图表 视图表
Spark如何将数据写入到DLI表中 使用Spark将数据写入到DLI表中,主要设置如下参数: fs.obs.access.key fs.obs.secret.key fs.obs.impl fs.obs.endpoint 示例如下: import logging from operator
DLI常用管理操作 使用自定义镜像增强作业运行环境 管理DLI全局变量 管理Jar作业程序包 管理DLI资源配额
安装其他服务SDK依赖。 DLI依赖SDK(例如,OBS SDK),可以通过配置华为云的maven镜像源仓库下载。 (推荐)以华为镜像源作为主仓库: 配置华为maven镜像源的具体方法可参见:华为开源镜像站>选择“华为SDK”>单击“HuaweiCloud SDK”。 使用maven构建时,settings
存储数据:DLI中支持创建OBS表,该类型表在DLI服务中只有元数据,实际数据在该表对应的OBS路径中。 创建OBS表的SQL语法请参考《使用DataSource语法创建OBS表》和《使用Hive语法创建OBS表》。 备份数据:使用DLI提供导出API,将DLI的数据导出到OBS中备份。 具体API请参考《导出数据》。
明细”。在显示数据的标题行,“产品类型”选择“数据湖探索 DLI”,“产品”选择“DLI计算资源使用量”,单击“导出账单”。 图3 导出消费数据 左侧导航栏,选择“导出记录”。下载对应的消费明细数据。 步骤2:分析账户消费结构并优化 在DLI上进行消费明细分析。 将1下载的消费明细数据上传到已建好的OBS桶中。
x</version> </dependency> 方式二:通过Maven配置华为镜像源来获取JDBC驱动 在使用Maven管理项目依赖时,可以通过修改settings.xml文件来配置华为镜像源以获取JDBC驱动。 <mirror> <id>huaweicloud</id>
使用DLI提交SQL作业 创建并提交SQL作业 导出SQL作业结果 配置SQL防御规则 设置SQL作业优先级 查询SQL作业日志 管理SQL作业 创建并管理SQL作业模板
资源包仅提供托管服务,不提供下载功能。 如何使用API通过公网访问DLI? DLI域名公网访问请使用域名访问:dli.{regionid}.myhuaweicloud.com 数据湖探索的终端节点请参考终端节点。 数据湖探索API请参考:数据湖探索API。 DLI自定义的Spark3.1.1镜像,需要把第三方依赖jar放到哪个路径下呢?
高可用性系统的需求。 图1阐明了区域和可用区之间的关系。 图1 区域和可用区 目前,华为云已在全球多个地域开放云服务,您可以根据需求选择适合自己的区域和可用区。更多信息请参见华为云全球站点。 如何选择区域? 选择区域时,您需要考虑以下几个因素: 地理位置 一般情况下,建议就近选择
SQL作业相关API(废弃) 导入数据(废弃) 导出数据(废弃) 父主题: 历史API
Access key cannot be null错误 Flink SQL作业消费Kafka后sink到es集群,作业执行成功,但未写入数据 Flink Opensource SQL如何解析复杂嵌套 JSON? Flink Opensource SQL从RDS数据库读取的时间和RDS数据库存储的时间为什么会不一致?