检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置环境变量 本章节主要介绍环境变量的配置和使用。 使用场景 配置作业参数,当某参数隶属于多个作业,可将此参数提取出来作为环境变量,环境变量支持导入和导出。 简单模式和企业模式下,配置工作空间的环境变量的角色有所不同: 简单模式:工作空间的环境变量开发者和管理员都能创建或编辑环境
配置DataArts Studio企业模式环境隔离 管理中心的环境隔离,当前支持配置DLI和DB配置的开发、生产环境隔离。 配置环境隔离后,数据开发时脚本/作业中的开发环境数据连接通过发布流程后,将自动切换对应生产环境的数据连接。 前提条件 创建DLI环境隔离前,应已创建DLI的数据连接。
参数 > 工作空间环境变量参数 > 脚本参数。 环境变量、作业参数、脚本参数的介绍和使用方式如下: 环境变量中支持定义变量和常量,环境变量的作用范围为当前工作空间。 变量是指不同的空间下取值不同,需要重新配置值,比如“工作空间名称”变量,这个值在不同的空间下配置不一样,导出导入后需要重新进行配置。
作业示例。 环境准备 已开通弹性云服务器,并创建ECS,ECS主机名为“ecs-dgc”。 本示例主机选择“CentOS 8.0 64bit with ARM(40GB)”的公共镜像,并且使用ECS自带的Python环境,您可登录主机后使用python命令确认服务器的Python环境。
操作环境与数据准备 操作环境准备 如果您是第一次使用DataArts Studio,请参考购买并配置DataArts Studio章节完成注册华为账号、购买DataArts Studio实例(DataArts Studio企业版)、创建工作空间等一系列操作。然后进入到对应的工作空间,即可开始使用DataArts
Studio数据连接。 配置企业模式环境隔离 配置开发、生产环境的DLI队列和DB映射配置的环境隔离。 对于DWS、MRS Hive和MRS Spark这三种数据源,如果在创建数据连接时选择同一个集群资源,则需要在同一个数据湖服务下配置两套数据库,进行开发与生产环境隔离,具体请参见DB配置。 对于
FTP/SFTP连接适用于从线下文件服务器或ECS服务器上迁移文件到数据库。 当前仅支持Linux操作系统的FTP 服务器。 作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户,密码不会立即生效且作业会运行失败。 连接FTP或SFTP服务器时,连接参数相同,如表1所示。
标准模板管理 功能配置 功能配置用于自定义数据架构中的各项功能。 在DataArts Studio控制台首页,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在数据架构控制台,单击左侧导航树中的“配置中心”,进入相应页面后再单击“功能配置”。 在功能配置页面,可根据用户具
如果使用企业模式,您还需要注意以下事项: 由于企业模式下需要区分开发环境和生产环境,因此您需要分别准备对应生产环境和开发环境的两套数据湖服务,用于隔离开发和生产环境: 对于集群化的数据源(例如MRS、DWS、RDS、MySQL、Oracle、DIS、ECS),如果使用两套集群,DataArts Stu
配置 配置环境变量 配置OBS桶 管理作业标签 配置调度身份 配置节点并发数 配置模板 配置调度日历 配置默认项 配置任务组 配置互斥 父主题: 配置管理
图3 配置血缘输入 完成血缘的输入表配置后,单击确定,继续配置血缘的输出表。假如MRS Spark作业中的输出表为“a”,则血缘输出配置如图4所示。 图4 配置血缘输出 完成血缘的输出表配置后,单击确认,则此MRS Spark节点的血缘关系手动配置成功。后续当需要查看血缘关系
t(yyyy-MM-dd, -1, DAY)}']表示抽取DS分区值为2024-07-15的数据。 其他场景请参见时间宏变量使用解析。 父主题: 配置CDM作业源端参数
字段转换器配置指导 操作场景 作业参数配置完成后,将进行字段映射的配置,您可以单击操作列下创建字段转换器。 如果是文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输),则没有字段映射这一步骤。 在创
字段转换器配置指导 操作场景 作业参数配置完成后,将进行字段映射的配置,您可以单击操作列下创建字段转换器。 如果是文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输),则没有字段映射这一步骤。 在创
资源名。 图10 导入资源成功 导入环境变量 单击左侧导航上的“配置”,进入环境变量页面。 单击环境变量配置下的“导入”,导入环境变量。 图11 选择导入环境变量 在弹出的导入环境变量窗口中,“文件位置”选择为“本地”,选择从旧空间导出的环境变量文件,“重名处理策略”默认选择“覆盖”,单击下一步。
配置管理 配置 管理资源 父主题: 数据开发
字段转换器配置指导 操作场景 作业参数配置完成后,将进行字段映射的配置,您可以单击操作列下创建字段转换器。 如果是文件类数据源(FTP/SFTP/HDFS/OBS)之间相互迁移数据,且源端“文件格式”配置为“二进制格式”(即不解析文件内容直接传输),则没有字段映射这一步骤。 在创
配置实时网络连接 实时迁移任务配置前,您需要确保用于执行迁移任务的资源组与您将要同步的数据来源端与目的端数据库的网络连通性,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。本文为您介绍数据库在不同网络环境中时,可选用的网络连通方案。 操作场景 DataArts
本地保存。 约束与限制 数据集成中的集群配置、环境变量等数据不支持导入导出,如有需要,请您进行手动配置同步。 由于安全原因,CDM不会将对应数据源的连接密码导出。因此在重新导入前,需要通过手工编辑导出的JSON文件补充密码或在导入窗口配置密码。 从本地导入JSON文件时,导入文件大小不能超过1MB。
参数的使用方法 类别 场景 生效范围 调用方法 环境变量/环境常量 配置作业参数时,当某参数隶属于多个作业时,可将此参数提取出来作为环境变量。 当前工作空间 ${环境变量} ${环境常量} 配置方法请参考:环境变量 作业变量/作业常量 作业参数为作业级的参数,可用于作业中的任意节点。 当前作业