检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
父主题: SQL作业开发类
父主题: SQL作业开发类
Hudi表初始化 初始化导入存量数据通常由Spark作业来完成,由于初始化数据量通常较大,因此推荐使用API方式给充足资源来完成。 对于批量初始化后需要接Flink或Spark流作业实时写入的场景,一般建议通过对上有消息进行过滤,从一个指定的时间范围开始消费来控制数据的重复接入量(
DLI SDK(服务自研):是DLI服务自行开发的SDK,本手册介绍DLI 自研SDK的使用方法。相关开发包请从华为云DLI 开发工具包(SDK)获取。
将开发好的Spark作业程序jar包上传到OBS路径下。 例如,本示例上传“spark-examples_2.11-XXXX.jar”到“obs://bucket/path”路径下。 以root用户登录到安装DLI Livy工具的ECS服务器。
父主题: SQL作业开发类
实时任务接入 实时作业一般由Flink Sql或Sparkstreaming来完成,流式实时任务通常配置同步生成compaction计划,异步执行计划。 Flink SQL作业中sink端Hudi表相关配置如下: create table hudi_sink_table ( /
在内核引擎上DLI Flink进行了多处核心功能的优化,并且提供了企业级的一站式开发平台,自带开发和运维功能,免除自建集群运维的麻烦;在connector方面除了支持开源connector之外,还可以对接云上Mysql、GaussDB、MRS HBase、DMS、DWS、OBS等,
父主题: Spark作业开发类
使用Spark-submit提交Spark Jar作业 DLI Spark-submit简介 DLI Spark-submit是一个用于提交Spark作业到DLI服务端的命令行工具,该工具提供与开源Spark兼容的命令行。 准备工作 授权。 DLI使用统一身份认证服务(Identity
父主题: SQL作业开发类
父主题: DLI中使用Hudi开发作业
创建Bucket索引表调优 创建Bucket索引表调优 Bucket索引常用设置参数: Spark: hoodie.index.type=BUCKET hoodie.bucket.index.num.buckets=5 Flink index.type=BUCKET hoodie.bucket.index.num.buckets
DROP TABLE IF EXISTS hudi_table; 父主题: DLI中使用Hudi开发作业
父主题: Spark作业开发类
表1 DLI获取访问凭据相关开发指南 类型 操作指导 说明 Flink作业场景 Flink Opensource SQL使用DEW管理访问凭据 Flink Opensource SQL场景使用DEW管理和访问凭据的操作指导,将Flink作业的输出数据写入到Mysql或DWS时,在connector
父主题: DLI中使用Hudi开发作业
图3 Driver信息 图4 Executor信息 父主题: Spark作业开发类
父主题: Spark作业开发类
DWS Connector概述 数据仓库服务(Data Warehouse Service,简称DWS)是一种基于基础架构和平台的在线数据处理数据库,为用户提供海量数据挖掘和分析服务。DLI将Flink作业从数据仓库服务(DWS)中读取数据。