检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建CDM与数据源之间的连接 操作场景 用户在创建数据迁移的任务前,需要先创建连接,让CDM集群能够读写数据源。一个迁移任务,需要建立两个连接,源连接和目的连接。不同的迁移方式(表或者文件迁移),哪些数据源支持导出(即作为源连接),哪些数据源支持导入(即作为目的连接),详情请参见支持的数据源。
开发一个Python作业 本章节介绍如何在数据开发模块上开发并执行Python作业示例。 环境准备 已开通弹性云服务器,并创建ECS,ECS主机名为“ecs-dgc”。 本示例主机选择“CentOS 8.0 64bit with ARM(40GB)”的公共镜像,并且使用ECS自带
datasource BizDatasourceRelationVO object 数据源信息,新建/更新时必填。 owner String 资产责任人,新建/更新时必填。 obs_location String 外表路径 table_type String 表类型。 distribute
MongoDB数据连接参数说明 表1 MongoDB数据连接 参数 是否必选 说明 数据连接类型 是 MongoDB连接固定选择为MongoDB。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。
description String 描述。 dimension_id String 所属维度ID,ID字符串。 owner String 资产责任人。 dimension_type String 维度类型。 枚举值: COMMON: 普通维度 LOOKUP: 码表维度 HIERARCHIES:
Elasticsearch数据连接参数说明 表1 Elasticsearch连接 参数 是否必选 说明 数据连接类型 是 Elasticsearch连接固定选择为Elasticsearch。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。
Spark作业运行参数 表29 BasicConfig作业基本信息说明 参数名 是否必选 参数类型 说明 owner 否 String 作业责任人,长度不能超过128个字符。 priority 否 int 作业优先级,取值范围[0, 2],默认值是0。0代表高优先级,1代表中优先级,2代表低优先级。
Spark作业运行参数 表29 BasicConfig作业基本信息说明 参数名 是否必选 参数类型 说明 owner 否 String 作业责任人,长度不能超过128个字符。 agency 否 String 作业委托的名称 isIgnoreWaiting 否 int 实例超时是否忽
与其他云服务的关系 统一身份认证服务 DataArts Studio使用统一身份认证服务(Identity and Access Management,简称IAM)实现认证和鉴权功能。 云审计服务 DataArts Studio使用云审计服务(Cloud Trace Servic
Hive连接参数说明 目前CDM支持连接的Hive数据源有以下几种: MRS Hive FusionInsight Hive Apache Hive 作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户,密码不会立即生效且作业会运行失败。 MRS Hive 用户具有MRS
基本概念 账号 用户的账号对其所拥有的资源及云服务具有完全的访问权限,可以重置用户密码、分配用户权限等。为了确保账号安全,建议您不要直接使用账号进行日常管理工作,而是创建用户并使用用户进行日常管理工作。 用户 由账号在IAM中创建的用户,是云服务的使用人员,具有身份凭证(密码和访问密钥)。
datasource BizDatasourceRelationVO object 数据源信息,新建/更新时必填。 owner String 资产责任人,新建/更新时必填。 obs_location String 外表路径 table_type String 表类型。 distribute
String 汇总表所属主题的ID,必填,ID字符串。 description String 汇总表描述信息。 owner String 汇总表的资产责任人。 secret_type String 密级类型。 枚举值: PUBLIC: 公开 SECRET: 秘密 CONFIDENTIAL: 机密
String 汇总表所属主题的ID,必填,ID字符串。 description String 汇总表描述信息。 owner String 汇总表的资产责任人。 secret_type String 密级类型。 枚举值: PUBLIC: 公开 SECRET: 秘密 CONFIDENTIAL: 机密
步骤2:数据准备 使用DataArts Studio前的准备 如果您是第一次使用DataArts Studio,请参考购买并配置DataArts Studio章节完成注册华为账号、购买DataArts Studio实例(DataArts Studio企业版)、创建工作空间等一系列
创建DataArts Studio数据连接 通过配置数据源信息,可以建立数据连接。DataArts Studio基于管理中心的数据连接对数据湖底座进行数据开发、治理、服务和运营。 配置开发和生产环境的数据连接后,数据开发时脚本/作业中的开发环境数据连接通过发布流程后,将自动切换对应生产环境的数据连接。
配置离线处理集成作业 数据集成支持创建离线作业,通过在界面勾选源端数据和目的端数据,并结合为其配置的参数,实现将源端单表、分库分表、整库的全量或增量数据周期性同步至目标数据表。 本文为您介绍离线同步任务的常规配置,各数据源配置存在一定差异,请以配置作业源端参数及配置作业目的端参数为准。
汇总表所属主题的ID,必填,ID字符串。 description 否 String 汇总表描述信息。 owner 是 String 汇总表的资产责任人。 secret_type 否 String 密级类型。 枚举值: PUBLIC: 公开 SECRET: 秘密 CONFIDENTIAL:
管理DataArts Studio资源 资源管理提供对DataArts Studio资源的统一管理。 离线资源管理 离线资源管理为您提供查看当前DataArts Studio实例下所有CDM集群的功能,并支持为CDM集群关联不同的工作空间。 只有当CDM集群在关联了工作空间后,才
dirty_out_prefix String 异常表前缀。 dirty_out_suffix String 异常表后缀。 quality_owner String 质量责任人。 quality_id String 质量ID,ID字符串。 distribute String DISTRIBUTE BY [HAS