-
数据开发数据搬迁 - 数据治理中心 DataArts Studio
导出脚本。导出完成后,即可通过浏览器下载地址,获取到导出的zip文件。 图1 选择并导出脚本 在弹出的“导出脚本”界面,选择需要导出的脚本的状态,单击“确定”。 图2 导出脚本 导出作业 单击脚本目录树上方的,切换到作业界面。 单击作业目录中的,选择“显示复选框”。 勾选需要导出的作业,单击 > 导出作业,可
-
流程设计 - 数据治理中心 DataArts Studio
您可以将某个DataArts Studio实例的数据架构中已建立的流程设计信息导出到Excel文件中。导出后的文件可用于导入。导出流程的操作请参见导出流程。 下载的流程模板参数如表3所示,其中名称前带“*”的参数为必填参数,名称前未带“*”的参数为可选参数。一个流程需要填写一条记录。 表3 流程导入参数说明
-
查看作业依赖关系图 - 数据治理中心 DataArts Studio
作业开发”。 右键单击作业所在的目录,单击“查看目录下作业依赖关系图”进入该目录下作业依赖图查看界面。 图4 在目录树上查看作业依赖关系图 系统自动展示该目录下作业的所有依赖关系,您可以查看作业之间的相互依赖关系。系统支持通过作业名称进行查找并高亮显示。 在依赖关系图中单击某节点,其上游作
-
新建数据表 - 数据治理中心 DataArts Studio
显示数据表的基本信息和存储信息。 字段信息 显示数据表的字段信息。 数据预览 预览数据表的10条记录。 DDL 显示DLI/DWS/MRS Hive数据表的DDL。 删除表:在脚本开发导航栏,选择,展开下方的数据连接至数据表层级,右键单击表名称,选择“删除”后,在弹出的页面中单击“确定”完成删除。
-
查询统计用户相关的总览开发指标 - 数据治理中心 DataArts Studio
e平台的](tag:hcs, hcs_sm)IAM服务的“获取用户Token”接口获取响应消息头中X-Subject-Token的值。 workspace 是 String 工作空间ID,获取方法请参见实例ID和工作空间ID。 Dlm-Type 否 String 数据服务的版本类
-
源端为HDFS - 数据治理中心 DataArts Studio
与加密时配置的“toJobConfig.dek”(导入时配置的数据加密密钥)一致。如果不一致系统不会报异常,只是解密出来的数据会错误。 fromJobConfig.iv 否 String 解密需要的初始化向量,初始化向量由长度32的十六进制数组成,且必须与加密时配置的“toJobConfig
-
开发一个Python作业 - 数据治理中心 DataArts Studio
主机的登录方式为密码时,填写主机的登录密码。 主机连接描述 否 主机连接的描述信息。 图1 新建主机连接 关键参数说明: 主机地址:已开通ECS主机中开通的ECS主机的IP地址。 绑定Agent:已开通批量数据迁移增量包中开通的CDM集群。 单击“测试”,测试数据连接的连通性。如果无法连通,数据连接将无法创建。
-
导出导入作业 - 数据治理中心 DataArts Studio
作业开发”。 单击作业目录中的,选择“显示复选框”。 勾选需要导出的作业,单击 > 导出作业,可选择“只导出作业”或“导出作业及其依赖脚本和资源定义”。导出完成后,即可通过浏览器下载地址,获取到导出的zip文件。 图1 选择并导出作业 在弹出的“导出作业”界面,选择需要导出的作业范围和状态,
-
新建维度 - 数据治理中心 DataArts Studio
义相同的字段,单击或按钮增加或删除JOIN条件。JOIN条件之间是and的关系。 单击“确定”完成设置。 设置JOIN后,如果想删除JOIN表,单击所需删除的表名后的按钮就可以删除该JOIN表。 图5 JOIN条件 字段映射 为来源于当前映射的字段,依次选择一个含义相同的源字段。
-
步骤4:元数据采集 - 数据治理中心 DataArts Studio
单击“下一步”。 图3 新建采集任务-基本配置 图4 新建采集任务-元数据采集 根据需要配置调度方式,配置完成后单击“提交”,完成采集任务的创建。 图5 调度方式 在采集任务列表中,找到刚才新建的采集任务,单击其所在行的“启动调度”按钮,启动周期采集任务。 图6 启动调度 在左侧
-
任务管理 - 数据治理中心 DataArts Studio
置数据目录中元数据的更新方式。 需要注意的是配置的更新、删除策略是作用在用户配置的数据库、数据表的范围内的。 勾选“仅更新数据目录中的元数据”:采集任务仅更新数据目录已经采集到的元数据 勾选“仅添加新元数据”:采集任务仅采集数据源中存在,但是数据目录中不存在的元数据 勾选“更新数
-
产品优势 - 数据治理中心 DataArts Studio
资产管理可视,支持钻取、溯源等。 全方位的安全保障 统一的安全认证,租户隔离,数据的分级分类管理,数据的全生命周期管理,保证数据的隐私合规、可审计、可回溯。 基于角色的访问控制,用户通过角色与权限进行关联,并支持细粒度权限策略,可满足不同的授权需求。
-
IF条件判断教程 - 数据治理中心 DataArts Studio
符合预期的,当前HIVE SQL执行的结果是4,所以>5和=5的分支被跳过,执行<5这个分支成功。 图10 子作业运行结果 多IF条件下当前节点的执行策略 如果当前节点的执行依赖多个IF条件的节点,执行的策略包含逻辑或和逻辑与两种。 当执行策略配置为逻辑或,则表示多个IF判断条件只要任意一个满足条件,则执行当前节点。
-
迁移到DWS时出现value too long for type character varying怎么处理? - 数据治理中心 DataArts Studio
varying”错误提示,如图1所示。 图1 日志信息 原因分析 这种情况一般是在迁移到DWS时数据有中文,且创建作业时选择了目的端自动建表的情况下。原因是DWS的varchar类型是按字节计算长度,一个中文字符在UTF-8编码下可能要占3个字节。当中文字符的字节超过DWS的varchar的长度时,就会出现错误:value
-
数据集成数据搬迁 - 数据治理中心 DataArts Studio
请您登录控制台首页,选择并进入新工作空间的“数据集成”模块,然后执行如下操作进行批量导入。 在CDM主界面,单击左侧导航上的“集群管理”,单击集群“操作”列的“作业管理”,进入到“表/文件迁移”界面。 单击作业列表上方的“导入”按钮,准备导入JSON文件。 图3 批量导入 在弹出的窗口中,选择导出作业获取的JSON文件,上传JSON文件。
-
数据架构数据搬迁 - 数据治理中心 DataArts Studio
在数据架构主界面,单击左侧导航栏的“流程设计”,进入流程设计页面。 单击列表上方的“导入”按钮,在弹出的导入窗口中,选择并上传需要导入的流程文件。 图13 导入流程 上传文件后系统开始自动导入,导入成功后系统会显示导入的情况。 图14 导入流程成功 导入主题 在数据架构主界面,单击左侧导航栏的“主题设计”,进入主题设计页面。
-
数据质量数据搬迁 - 数据治理中心 DataArts Studio
获取到导出的xlsx文件。 图3 获取规则模板导出结果 导出质量作业 单击左侧导航上的“质量作业”,进入质量作业列表。 在质量作业列表,选择需要迁移的质量作业,然后单击“导出”。 图4 批量导出质量作业 在弹出的导出窗口中,确认选择无误后单击“导出”,导出质量作业。 图5 质量作业导出确认
-
配置HDFS源端参数 - 数据治理中心 DataArts Studio
Parquet格式:以Parquet格式解析源文件,用于HDFS数据导到表的场景。 CSV格式 列表文件 当“文件格式”选择为“二进制格式”时,才有该参数。 打开列表文件功能时,支持读取OBS桶中文件(如txt文件)的内容作为待迁移文件的列表。该文件中的内容应为待迁移文件的绝对路径(不支持目录),文件内容示例如下:
-
获取当前目录下的所有类型列表 - 数据治理中心 DataArts Studio
e平台的](tag:hcs, hcs_sm)IAM服务的“获取用户Token”接口获取响应消息头中X-Subject-Token的值。 workspace 是 String 工作空间ID,获取方法请参见实例ID和工作空间ID。 Dlm-Type 否 String 数据服务的版本类
-
Rest Client - 数据治理中心 DataArts Studio
挂起当前作业执行计划:当前作业实例的状态为运行异常,该节点的后续节点以及依赖于当前作业的后续作业实例都会处于等待运行状态。 是否空跑 否 如果勾选了空跑,该节点不会实际执行,将直接返回成功。 任务组 否 选择任务组。任务组配置好后,可以更细粒度的进行当前任务组中的作业节点的并发数控制,比如作业中包含多个节点、补数据、重跑等场景。