检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用DLI提交Spark Jar作业 操作场景 DLI允许用户提交编译为Jar包的Spark作业,Jar包中包含了Jar作业执行所需的代码和依赖信息,用于在数据查询、数据分析、机器学习等特定的数据处理任务中使用。在提交Spark Jar作业前,将程序包上传至OBS,并将程序包与数据和作业参数一起提交以运行作业。
型跨源,并绑定所要使用的Flink弹性资源池。 设置Kafka的安全组,添加入向规则使其对Flink的队列网段放通。参考测试地址连通性根据Kafka的地址测试队列连通性。若能连通,则表示跨源已经绑定成功,否则表示未成功。 参考创建Flink OpenSource作业,创建flink
用户为作业选择的管理节点CU数量,对应为flink jobmanager数量。默认值为“1”。 parallel_number 否 Integer 用户为作业选择的并发量。 log_enabled 否 Boolean 是否开启作业日志。 开启:true 关闭:false 默认:false obs_bucket
上传驱动 添加后驱动类为空,需要单击“找到类”。识别出来的驱动类,需要与“设置”页的“类名”一致。 单击“确定”,驱动设置完成。 步骤2:测试连接数据库 在DBeaver客户端单击“数据库 > 新建数据库连接”,选择步骤1:在DBeaver新建DLI JDBC驱动中创建的数据驱动。
Flink Jar作业是否支持上传配置文件,要如何操作? Flink Jar作业上传配置文件操作流程 自定义(JAR)作业支持上传配置文件。 将配置文件通过程序包管理上传到DLI; 在Flink jar作业的其他依赖文件参数中,选择创建的DLI程序包; 在代码中通过ClassName
根据kafka所在的虚拟私有云和子网创建相应的跨源,并绑定所要使用的队列。然后设置安全组入向规则,使其对当前将要使用的队列放开,并根据kafka的地址测试队列连通性。如果能连通,则表示跨源已经绑定成功;否则表示未成功 创建flink opensource sql作业,并选择flink版本为1
用户为作业选择的管理节点CU数量,对应为flink jobmanager数量。默认值为“1”。 parallel_number 否 Integer 用户为作业选择的并发量。默认值为“1”。 log_enabled 否 Boolean 是否开启作业日志。 开启:true 关闭:false 默认:false obs_bucket
partitionColumn 读取数据时,用于设置并发使用的数值型字段。 说明: “partitionColumn”,“lowerBound”,“upperBound”,“numPartitions”4个参数必须同时设置,不支持仅设置其中一部分。 为了提升并发读取的性能,建议使用自增列。 lowerBound
建议 通过增加并发数提升Compaction性能。 CPU和内存比例配置合理会保证Compaction作业是稳定的,实现单个Compaction task的稳定运行。但是Compaction整体的运行时长取决于本次Compaction处理文件数以及分配的cpu核数(并发能力),因此
partitionColumn 读取数据时,用于设置并发使用的数值型字段。 说明: “partitionColumn”,“lowerBound”,“upperBound”,“numPartitions”4个参数必须同时设置,不支持仅设置其中一部分 为了提升并发读取的性能,建议使用自增列。 lowerBound
弹性资源池CU时套餐包 按照“CU时”收取计算费用,用户在弹性资源池添加的队列上运行作业时按照弹性资源池CU时计费。 适用于可预估队列使用量的场景、或测试项目等资源消耗不高的场景。 弹性资源池CU时套餐包的额度按订购周期重置。 存储量套餐包 按照存储在DLI服务中的数据存储量(单位为“GB”)收取存储费用。
orders.product_id = dim.product_id; 连接Kafka集群,向Kafka的source topic中插入如下测试数据: {"product_id": "product_id_11", "user_name": "name11"} {"product_id":
型跨源,并绑定所要使用的Flink弹性资源池。 设置Redis的安全组,添加入向规则使其对Flink的队列网段放通。参考测试地址连通性根据redis的地址测试队列连通性。若能连通,则表示跨源已经绑定成功,否则表示未成功。 在Redis客户端中执行如下命令,向不同的key中插入数据,以hash形式存储:
源中增加MRS的主机信息。 设置HBase和Kafka的安全组,添加入向规则使其对Flink的队列网段放通。参考测试地址连通性分别根据HBase和Kafka的地址测试队列连通性。若能连通,则表示跨源已经绑定成功,否则表示未成功。 参考MRS HBase的使用,通过HBase sh
跨源,并绑定所要使用的Flink弹性资源池。 设置Redis的安全组,添加入向规则使其对Flink的队列网段放通。 参考测试地址连通性根据redis的地址测试队列连通性。如果能连通,则表示跨源已经绑定成功,否则表示未成功。 在Redis客户端中执行如下命令,向不同的key中插入数据,以hash形式存储:
并行数 作业中每个算子的最大并行数。 说明: 并行数不能大于计算单元(CU数量-管理单元CU数量)的4倍。 并行数最好大于用户作业里设置的并发数,否则有可能提交失败。 TaskManager配置 用于设置TaskManager资源参数。 勾选后需配置下列参数: “单TM所占CU数
率。本章节介绍创建弹性资源池并添加队列的操作步骤。 DLI弹性资源池之间为物理集群隔离,同一个弹性资源池中的队列之间为逻辑隔离。 建议您对测试业务场景和生产业务场景分别创建弹性资源池,通过资源物理隔离的方式,保障资源管理的独立性和安全性。 弹性资源池约束与限制 表1 弹性资源池约束限制
表中;同时您也可以将文件或文件夹拖拽到指定的目录上,这样可以上传到指定的目录中。 单击Best_Practice_01.zip获取本示例的测试数据,将“Best_Practice_01.zip”压缩包解压。后续操作说明如下: 详单数据:将解压后Data目录下的“detail-re
Clustering服务基于Hudi的MVCC设计,允许继续插入新数据,而Clustering操作在后台运行以重新格式化数据布局,从而确保并发读写者之间的快照隔离。 总体而言Clustering分为两个部分: 调度Clustering:使用可插拔的Clustering策略创建Clustering计划。
导入OBS表时,创建OBS表时指定的路径必须是文件夹,若建表路径是文件将导致导入数据失败。 仅支持导入位于OBS路径上的原始数据。 不建议对同一张表并发导入数据,因为有一定概率发生并发冲突,导致导入失败。 导入数据时只能指定一个路径,路径中不能包含逗号。 当OBS桶目录下有文件夹和文件同名时,导入数据会优先指向该路径下的文件而非文件夹。