检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
参数填写完成后,单击“立即购买”,在界面上确认当前配置是否正确。 单击“提交”完成弹性资源池的创建。 在弹性资源池的列表页,选择要操作的弹性资源池,单击操作列的“添加队列”。 配置队列的基础配置,具体参数信息如下。 表2 弹性资源池添加队列基础配置 参数名称 参数说明 名称 弹性资源池添加的队列名称。
云。 子网:选择步骤1:获取外部数据源的内网IP、端口和安全组获取的外部数据源的子网。 其他参数可以根据需要选择配置。 参数配置完成后,单击“确定”完成增强型跨源配置。单击创建的跨源连接名称,查看跨源连接的连接状态,等待连接状态为:“已激活”后可以进行后续步骤。 如果是连接MRS
配置DLI云服务委托权限 使用DLI服务前请先配置DLI云服务权限。 本节操作适用于以下场景: 首次使用DLI服务,请参考本节操作按需配置DLI云服务委托权限。 使用DLI的过程中需要与其他云服务协同工作,因此需要您将部分服务的操作权限委托给DLI服务,确保DLI具备基本使用的权
配置DLI与数据源网络连通(增强型跨源连接) 增强型跨源连接概述 创建增强型跨源连接 建立DLI与共享VPC中资源的网络连接 DLI常用跨源分析开发方式 父主题: 配置DLI读写外部数据源数据
配置DLI程序包权限 针对不同用户,可以通过权限设置分配不同的程序包组或程序包,不同用户之间的作业效率互不影响,保障作业性能。 管理员用户、程序包组拥有程序包组的所有权限。不需要进行权限设置,且其他用户无法修改其程序包组权限。 管理员用户、程序包的所有者拥有程序包的所有权限。不需
创建自定义镜像 以tensorflow为例,说明如何将tensorflow打包进镜像,生成安装了tensorflow的自定义镜像,在DLI作业中使用该镜像运行作业。 准备容器环境。 请参考安装容器引擎文档中的“安装容器引擎”章节。 使用root用户登录1容器镜像环境,执行以下命令获取DLI的基础镜像。
Spark SQL常用配置项说明 本章节为您介绍DLI 批作业SQL语法的常用配置项。 表1 常用配置项 名称 默认值 描述 spark.sql.files.maxRecordsPerFile 0 要写入单个文件的最大记录数。如果该值为零或为负,则没有限制。 spark.sql.shuffle
基本概念 弹性资源池 专属的计算资源,不同弹性资源上的计算资源完全隔离,弹性资源池内的不同队列资源可以共享,并可以根据队列资源负载配置策略进行分时弹性扩缩容,满足不同的业务需求。 DLI存储资源 DLI存储资源是DLI服务内部存储的资源,用于存储数据库和DLI表,是向DLI导入数
设置告警规则基本信息,并配置告警规则的详细信息。 详细参数说明请参考按全量指标创建。 配置告警规则时选择的Prometheus实例应是需要配置告警通知的作业所在的弹性资源池绑定的Prometheus 实例。 配置高级设置:仅”全量指标创建”的方式支持该配置项,配置时建议开启无数据处理。即配置监控周
络。 测试网络连通性:验证队列与数据源网络连通性。 目前DLI支持跨源访问的数据源请参考DLI常用跨源分析开发方式。 在跨源开发场景中直接配置跨源认证信息存在密码泄露的风险,Spark 3.3.1及以上版本、Flink 1.15及以上版本的跨源访问场景推荐使用数据加密服务DEW来
目的数据源子网与队列所在子网为不同的子网,否则会造成网段冲突。 主机信息 可选参数,用于配置主机的IP与域名的映射关系,在作业配置时只需使用配置的域名即可访问对应的主机。 例如:访问MRS的HBase集群时需要配置Zookeeper实例的主机名(即域名)与对应的IP地址。每行填写一条记录,填写格式为:“IP
配置DLI访问其他云服务的委托权限 DLI委托概述 创建DLI自定义委托权限 常见场景的委托权限策略 典型场景DLI委托权限配置示例
分别存放了Spark-submit相关的执行脚本、配置文件和依赖包。 进入配置文件conf目录,修改“client.properties”中的配置项,(具体配置项参考表1)。 表1 DLI 客户端工具配置参数 属性项 必须配置 默认值 描述 dliEndPont 否 - DLI服务的域名。
数据处理后写入到OBS,具体参数配置请根据实际环境修改。 环境准备 已安装和配置IntelliJ IDEA等开发工具以及安装JDK和Maven。 Maven工程的pom.xml文件配置请参考JAVA样例代码(Flink 1.12)中“pom文件配置”说明。 确保本地编译环境可以正常访问公网。
创建RDS关联表 插入数据 查询数据 scala样例代码 pyspark样例代码 java样例代码 Postgres CDC源表 - 父主题: 配置DLI与数据源网络连通(增强型跨源连接)
配置Hudi数据列默认值 该特性允许用户在给表新增列时,设置列的默认值。查询历史数据时新增列返回默认值。 使用约束 新增列在设置默认值前,如果数据已经进行了重写,则查询历史数据不支持返回列的默认值,返回NULL。数据入库、更新、执行Compaction、Clustering都会导致部分或全部数据重写。
配置DLI读写外部数据源数据 配置DLI读写外部数据源数据的操作流程 配置DLI与数据源网络连通(增强型跨源连接) 使用DEW管理数据源访问凭证 使用DLI的跨源认证管理数据源访问凭证 管理增强型跨源连接 典型场景示例:配置DLI与内网数据源的网络联通 典型场景示例:配置DLI 与公网网络连通
操作、消息通知、用户授权操作所需的权限。配置DLI云服务委托权限。 使用Flink 1.15和Spark 3.3.1(Spark通用队列场景)及以上版本的引擎执行作业时,需完成以下配置操作: 需用户自行在IAM页面创建相关委托,并在作业配置中添加新建的委托信息。具体操作请参考创建DLI自定义委托权限。
Kafka Sink配置发送失败重试机制 问题描述 用户执行Flink Opensource SQL, 采用Flink 1.10版本。Flink Sink写Kafka报错后作业失败: Caused by: org.apache.kafka.common.errors.NetworkException:
列。 更多属性参数配置请参考DLI SQL属性参数说明。 图8 编辑DLI SQL节点属性 属性编辑完成后,单击“保存”,保存属性配置信息。 配置作业调度 由于创建库表只需要执行一次,所以本示例只设置为单次调度。 鼠标左键单击作业画布空白处。 单击 “调度配置” ,选择 “单次调