检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
实例类型 目前数据集成集群支持以下部分规格供用户选择: cdm.large:8核CPU、16G内存的虚拟机,最大带宽/基准带宽为3/0.8 Gbps,集群作业并发数上限为16。
*策略名称 用于标识MRS Yarn队列权限策略,为便于策略管理,建议名称中包含授权对象。 策略描述 为更好地识别策略,此处加以描述信息。 策略状态 开启后当前策略生效。 审计日志 开启后可记录当前队列的操作日志,需要在数据源侧查看对应的审计日志。
绑定Agent 是 RDS类型数据源为非全托管服务,DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建RDS类型的数据连接时,请选择一个CDM集群。
图1 CDM操作事件 在需要查看的事件左侧,单击事件名称左侧箭头,展开该记录的详细信息。 在需要查看的记录右侧,单击“查看事件”,弹窗中显示了该操作事件结构的详细信息。 更多关于云审计的信息,请参见云审计服务用户指南。 父主题: 审计日志
表1 OBS连接的参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 obs_link OBS终端节点 终端节点(Endpoint)即调用API的请求地址,不同服务不同区域的终端节点不同。
数据湖是一个集中存储各类结构化和非结构化数据的大型数据仓库,它可以存储来自多个数据源、多种数据类型的原始数据,数据无需经过结构化处理,就可以进行存取、处理、分析和传输。数据湖能帮助企业快速完成异构数据源的联邦分析、挖掘和探索数据价值。
图10 添加路由1 图11 添加路由2 (可选)MRS类型数据源还需要进行以下操作打通网络。 实时网络连接创建完成并绑定资源组后,单击右侧“更多 > 修改主机信息”,按照输入框提示的格式填写MRS集群所有节点的IP和域名。
配置Kafka源端参数 表1 Kafka作为源端时的作业参数 参数类型 参数 说明 取值样例 基本参数 Topic 主题名称。支持单个topic。 cdm_topic 数据格式 解析数据时使用的格式: JSON:以JSON格式解析源数据。 CSV格式:以CSV格式解析源数据。
配置Doris目的端参数 表1 Doris作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 模式或表空间 待写入数据的数据库名称,支持自动创建Schema。单击输入框后面的按钮可选择模式或表空间。
图1 添加高级属性 表1 DWS写入优化参数 参数名 类型 默认值 说明 写入模式 enum UPSERT DWS的写入模式,可在目的端配置中设置,实时处理集成作业推荐使用COPY MODE。 UPSERT:为批量更新入库模式。 COPY:为DWS专有的高性能批量入库模式。
图1 添加高级属性 表1 DWS写入优化参数 参数名 类型 默认值 说明 写入模式 enum UPSERT DWS的写入模式,可在目的端配置中设置,实时处理集成作业推荐使用COPY MODE。 UPSERT:为批量更新入库模式。 COPY:为DWS专有的高性能批量入库模式。
所选字段必须为timestamp类型。 - 写入参数 在执行Spark SQL往hudi插入数据前,通过set语法设置参数,从而控制spark的写入行为。 hoodie.combine.before.upsert 父主题: 配置作业目的端参数
表1 CloudTable OpenTSDB连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 TSDB_link OpenTSDB链接地址 OpenTSDB的ZK链接地址。
作业类型 选择作业的类型。 批处理作业:按调度计划定期处理批量数据,主要用于实时性要求低的场景。批作业是由一个或多个节点组成的流水线,以流水线作为一个整体被调度。被调度触发后,任务执行一段时间必须结束,即任务不能无限时间持续运行。
图3 下载集群客户端 选择客户端类型、平台类型(与执行任务的服务器保持一致),如果不修改保存路径,会自动下载客户端到MRS主节点对应路径下,在拷贝客户端软件包到待安装客户端节点的指定目录。
准备工作 查询打通网络过程中所涉及到对象的网段(包含数据源、中转VPC、资源组),为便于理解,本章节将举例为您进行介绍。 表1 资源网段规划 资源名称 说明 私网网段示例 数据源VPC 华为云数据源所属的VPC,各数据源VPC查看方式不同,具体方法请参考数据源官方文档。
数据架构API概览 表1 数据架构API类型 类型 说明 概览 概览接口。 信息架构接口 信息架构接口。 数据标准接口 数据标准接口 数据源接口 数据源接口。 码表管理接口 码表管理接口。 流程架构接口 流程架构接口。 数据标准模板接口 数据标准模板接口。
图2 新建密级权限管控策略参数配置 创建密级权限管控策略参数配置说明: 表1 配置策略参数 参数名 参数说明 *用户类型 选择为用户或用户组进行密级权限管控。 *用户名称 选择当前实例所有工作空间成员中的用户或用户组。
配置DWS目的端参数 表1 DWS作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 模式或表空间 待写入数据的数据库名称,支持自动创建Schema。 单击输入框后面的按钮可选择模式或表空间。 整库迁移时无该参数。
配置ClickHouse源端参数 参数类型 参数名 说明 取值样例 基本参数 模式或表空间 “使用SQL语句”选择“否”时,显示该参数,表示待抽取数据的模式或表空间名称。 单击输入框后面的按钮可进入模式选择界面,用户也可以直接输入模式或表空间名称。