检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
字段转换器配置指导 操作场景 作业参数配置完成后,将进行字段映射的配置,您可以单击操作列下创建字段转换器。 如果是文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输),则没有字段映射这一步骤。 在创
如果数据内容是使用二进制格式存储的,CDM会无法解析。 从HBase/CloudTable导出数据时,由于HBase/CloudTable是无Schema的存储系统,CDM要求源端数值型字段是以字符串格式存储,而不能是二进制格式,例如数值100需存储格式是字符串“100”,不能是二进制“01100100”。
Studio数据架构的“配置中心”页面进行配置,详情请参见编码规则。 指标别名 可选参数。 *所属流程 选择指标所属的业务流程。如果您还未创建业务流程,请参见流程设计进行创建。 *设置目的 描述设置该指标的目的。 *指标定义 需准确描述指标的定义。 备注 备注信息。 自定义指标 如果在配置中心的指
中,有合并做rowkey的,则依然当字符串写入。 该功能作用是:降低存储占用空间,存储更高效;特定场景下rowkey分布更均匀。 否:源端数据库中所有类型的数据,都会按照字符串写入HBase。 否 父主题: 配置CDM作业目的端参数
TTPS的API,需要配置相关的SSL证书或跳过SSL校验,否则将无法访问。 请求方式 HTTP请求方式,表示请求什么类型的操作,包含GET、POST等,遵循resultful风格。 GET:请求服务器返回指定资源,推荐使用GET请求。 POST:请求服务器新增资源或执行特殊操作
行该分支。 表达式 当条件类型为“满足当前条件时”,需要根据表达式配置条件。 条件分支表达式由上游算子的节点编码和变量名组成,使用方法请参考变量表达式定义方法。 表达式定义方法 在定义条件分支的表达式时,需要配置变量表达式。当前仅入口API和普通API支持定义变量,条件分支、并行
该参数表示抽取指定值的partition,属性名称为分区名称,属性值可以配置多个值(空格分隔),也可以配置为字段取值范围,接受时间宏函数。详细说明请参见使用时间宏变量完成增量同步。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,
选择搬迁哪个组件的数据。 管理中心配置数据搬迁 数据集成配置数据搬迁 数据架构配置数据搬迁 数据开发配置数据搬迁 数据质量配置数据搬迁 数据目录配置数据搬迁 数据安全配置数据搬迁 数据服务配置数据搬迁 父主题: DataArts Studio配置数据搬迁实践
- 提交并运行任务。 作业配置完毕后,单击作业开发页面左上角“提交”,完成作业提交。 图5 提交作业 提交成功后,单击作业开发页面“启动”按钮,在弹出的启动配置对话框按照实际情况配置同步位点参数,单击“确定”启动作业。 图6 启动配置 表3 启动配置参数 参数 说明 同步模式 数据源通用同步模式:
本章主要描述如何配置通用角色,配置纳管角色以及相关操作。 前提条件 配置角色前,已完成空间权限集的配置,请参考配置空间权限集。 MRS和DWS角色同步时,系统通过管理中心组件数据连接中的用户进行账号相关的增删改查等操作,因此对数据连接中的用户有以下权限要求: MRS Rang
在数据开发主界面的左侧导航栏,选择“配置管理 > 配置”。 单击“环境变量”,在“环境变量配置”页面,配置如表1所示的变量或常量,单击“保存”。 变量和常量的区别是其他工作空间或者项目导入的时候,是否需要重新配置值。 变量是指不同的空间下取值不同,需要重新配置值,比如“工作空间名称”变量
进入API编排页面 拖拽“入口API”算子到画布,单击画布上的算子打开配置面板,配置入口API信息。 图2 配置入口API算子 在API目录找到需要转换的普通API并拖拽到画布,挂载到入口API下。单击画布上的普通API打开配置面板,复制节点编码例如:NormalApi_5274d。 图3
列资源、配置MRS队列属性(离线/实时)以及为指定的队列配置用户权限策略,另外工作空间管理员用户也可以为用户组/用户配置队列权限策略。 当前工作空间分配的队列资源和配置的队列权限并无绑定关系,队列权限策略实际上落在数据源配置中。因此,当删除当前工作空间的队列资源后,已配置的队列权
和表名,其中表匹配策略必须包含#{source_table_name}。 DWS参数配置。 其余DWS目的端参数说明请参考下表。 图6 DWS配置项 表7 DWS配置项 配置项 默认值 单位 配置说明 写入模式 UPSERT - UPSERT MODE:批量更新入库模式。 COPY
组。 Kafka源端属性配置 支持设置Kafka的配置项,需要增加 properties. 前缀,作业将自动移除前缀并传入底层Kafka客户端,具体参数可参考Apache Kafka官方文档中的配置说明。 配置目的端参数。 图6 目的端OBS配置 文件存储格式 写入OBS的文件格
配置PostgreSQL源端参数 支持从云端的数据库服务导出数据。 这些非云服务的数据库,既可以是用户在本地数据中心自建的数据库,也可以是用户在ECS上部署的,还可以是第三方云上的数据库服务。 OpenGauss数据源与PostgreSQL一致,可参考本章节配置。 表1 PostgreSQL作为源端时的作业参数
配置 配置环境变量 配置OBS桶 管理作业标签 配置调度身份 配置节点并发数 配置模板 配置调度日历 配置默认项 配置任务组 配置互斥 父主题: 配置管理
配置OBS目的端参数 支持使用CSV、CarbonData或二进制格式批量传输大量文件到OBS。 表1 OBS作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 桶名 写入数据的OBS桶名。 bucket_2 写入目录 写入数据到OBS服务器的目录,目录前面不加“/”。
bucket_2 写入目录 写入数据到OBS服务器的目录,目录前面不加“/”。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 说明: 如果配置了时间宏变量,通过DataArts
单击“保存”,对设置的配置项进行保存。 配置周期调度 当前作业所依赖的作业执行失败后,当前作业的处理策略是根据配置的默认策略来执行,配置默认策略操作如下。 在数据开发主界面的左侧导航栏,选择“配置管理 > 配置”。 单击“默认项设置”,可设置“周期调度”配置项。 策略支持如下三种,系统默认配置为“取消执行”。