检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
导出DLI表数据至OBS中 支持将数据从DLI表中导出到OBS服务中,导出操作将在OBS服务新建文件夹,或覆盖已有文件夹中的内容。 注意事项 支持导出json格式的文件,且文本格式仅支持UTF-8。 只支持将DLI表(表类型为“Managed”)中的数据导出到OBS桶中,且导出的路径必须指定到文件夹级别
使用DLI提交Spark Jar作业 操作场景 DLI允许用户提交编译为Jar包的Spark作业,Jar包中包含了Jar作业执行所需的代码和依赖信息,用于在数据查询、数据分析、机器学习等特定的数据处理任务中使用。在提交Spark Jar作业前,将程序包上传至OBS,并将程序包与数据和作业参数一起提交以运行作业
使用DLI提交SQL作业查询OBS数据 场景描述 DLI可以查询存储在OBS中的数据,本节操作介绍使用DLI提交SQL作业查询OBS数据的操作步骤。 本例新建“sampledata.csv”文件上传OBS桶,并新建弹性资源池队列,使用DLI创建数据库和表,使用DLI提供的SQL编辑器查询表的
Flink作业高可靠推荐配置指导(异常自动重启) 操作场景 本节操作介绍创建Flink作业时,配置流应用实现高可靠性能的操作方法。 操作步骤 用户在消息通知服务(SMN)中提前创建一个“主题”,并将其指定的邮箱或者手机号添加至主题订阅中。此时指定的邮箱或者手机会收到请求订阅的通知,
使用DLI将CSV数据转换为Parquet数据 应用场景 Parquet是面向分析型业务的列式存储格式,这种格式可以加快查询速度,查询Parquet格式数据时,只检查所需要的列并对它们的值执行计算,也就是说,只读取一个数据文件或表的一小部分数据。Parquet还支持灵活的压缩选项,
手动续费 在云服务控制台续费 登录管理控制台。 单击左侧导航栏的图标,选择“大数据 > 数据湖探索 DLI”。 在队列或弹性资源池的列表页,选中待续费的包年/包月资源。 单击“操作”列下的“更多 > 续费”。 选择续费时长,判断是否勾选“统一到期日”,将到期时间统一到各个月的某一天
基本概念 弹性资源池 专属的计算资源,不同弹性资源上的计算资源完全隔离,弹性资源池内的不同队列资源可以共享,并可以根据队列资源负载配置策略进行分时弹性扩缩容,满足不同的业务需求。 DLI存储资源 DLI存储资源是DLI服务内部存储的资源,用于存储数据库和DLI表,是向DLI导入数据的必备条件
在DataArts Studio开发DLI SQL作业 操作场景 华为云数据治理中心DataArts Studio提供了一站式数据治理平台,可以实现与DLI服务的对接,从而提供统一的数据集成、数据开发服务,方便企业对全部数据进行管控。 本节操作介绍在DataArts Studio开发
在安装容器引擎的虚拟机中执行上一步复制的登录指令。 创建容器镜像组织。如果已创建组织则本步骤可以忽略。 登录SWR管理控制台。 选择左侧导航栏的“组织管理”,单击页面右上角的“创建组织”。 填写组织名称,单击“确定”。 编写Dockerfile文件。
使用Spark SQL作业分析OBS数据 DLI支持将数据存储到OBS上,后续再通过创建OBS表即可对OBS上的数据进行分析和处理。 本指导中的操作内容包括:创建OBS表、导入OBS表数据、插入和查询OBS表数据等内容来帮助您更好的在DLI上对OBS表数据进行处理。 前提条件 已创建
DLI Hudi元数据 DLI Hudi元数据说明 创建Hudi表时会在元数据仓创建表的相关元数据信息。 Hudi支持对接DLI元数据和Lakeformation元数据(仅Spark 3.3.1及以上版本支持对接Lakeformation元数据),对接方式与Spark一致。 DLI
费用账单 您可以在“费用中心 > 账单管理”查看DLI资源的费用账单,以了解该DLI资源在某个时间段的使用量和计费信息。 账单上报周期 包年/包月计费模式的资源完成支付后,会实时上报一条账单到计费系统进行结算。 按需计费模式的资源按照固定周期上报使用量到计费系统进行结算。按需计费模式产品根据使用量类型的不同
DLI Delta元数据 在DLI中提交Spark SQL作业开发Delta的SQL语法请参考Delta SQL语法参考。 在DLI中提交Spark Jar作业开发Delta请参考在DLI使用Delta提交Spark Jar作业。 DLI Delta元数据说明 创建Delta表时会在元数据仓创建表的相关元数据信息
约束与限制 弹性资源池约束限制 更多弹性资源池约束限制请参考弹性资源池使用约束限制。 表1 弹性资源池约束限制 限制项 说明 资源规格 当前弹性资源池最大的计算资源 32000CUs。 弹性资源池中可创建队列的最小CU: 通用队列:4CUs SQL队列:Spark SQL队列:8CUs
配置YongHong BI连接DLI进行数据查询和分析 YongHong BI是一款企业级数据分析工具。支持数据可视化、报表制作、数据分析和决策支持的功能,帮助企业洞察业务数据,提升决策效率。 本节操作介绍YongHong BI连接DLI的操作步骤。 操作前准备 环境要求: 已安装
套餐包计费 套餐包 DLI提供优惠的资源套餐包,购买套餐包后,资源按照套餐包类型计费。 套餐包是用户预先购买的资源使用量配额,超出当前套餐包的额度,将自动转为按需收费。 套餐包类型及适用场景 表1 套餐包类型及适用场景 类型 说明 适用场景 重置规则 扫描数据量套餐包 按照用户每个作业的数据扫描量
计费概述 数据湖探索DLI的计费由不同的计费项组成,不同的计费项有不同的计费模式,如图1所示。 图1 DLI的计费组成 计费项 DLI的计费项包括计算计费、存储计费、扫描量计费。DLI的计费详情请参见DLI产品价格详情。您可以通过DLI提供的价格计算器,快速计算出购买资源的参考价格
Hbase源表 功能描述 创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,
Hbase源表 功能描述 创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,
使用DLI提交SQL作业查询RDS MySQL数据 操作场景 DLI可以查询存储在RDS数据库中的数据,本节操作介绍使用DLI提交SQL作业查询RDS MySQL数据的操作步骤。 本例创建RDS实例并新建数据库和表,创建DLI弹性资源池队列,通过增强型跨源连接打通DLI弹性资源池和