检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
搭建实时报警平台 跨工作空间的DataArts Studio数据搬迁 通过数据开发使用参数传递灵活调度CDM作业 通过数据开发实现数据增量迁移 通过CDM节点批量创建分表迁移作业 06 SDK&API DataArts Studio软件开发工具包(SDK)是对DataArts Studio提供的REST
String 重跑开始位置,取值有firstNode、errorNode和specifiedNode。 node_name 否 String 节点名称。 retry_task_version 是 String 使用的作业参数,取值有original_version和current_version。
单击左侧导航栏中“流程设计”,进入流程设计页面,在流程树中选中一个流程,单击按钮在所选流程下新建流程。首次新建流程时,可选择在流程的根节点下新建流程。 图1 流程设计 在弹出对话框中配置如下参数,然后单击“确定”完成流程的创建。 图2 新建流程 表1 新建流程参数说明 参数名
如何共享VPC子网,请参考《共享VPC》。 子网 subnet-1 安全组 sg-1 增量包 作业节点调度次数/天增量包 不同版本的DataArts Studio实例,针对作业节点调度次数/天,技术资产数量和数据模型数量这三类配额,提供了默认规格。当实例默认配额不足以满足业务需要时,可以勾选并购买此处的增量包。
如何共享VPC子网,请参考《共享VPC》。 子网 subnet-1 安全组 sg-1 增量包 作业节点调度次数/天增量包 不同版本的DataArts Studio实例,针对作业节点调度次数/天,技术资产数量和数据模型数量这三类配额,提供了默认规格。当实例默认配额不足以满足业务需要时,可以勾选并购买此处的增量包。
业务指标 经过数据调研和需求分析之后,您需要根据需求落地指标。指标是衡量目标总体特征的统计数值,是能表征企业某一业务活动中业务状况的数值指示器。指标一般由指标名称和指标数值两部分组成,指标名称及其涵义体现了指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。
指标定义 经过数据调研和需求分析之后,您需要根据需求落地指标。指标是衡量目标总体特征的统计数值,是能表征企业某一业务活动中业务状况的数值指示器。指标一般由指标名称和所属流程两部分组成,指标名称及其涵义体现了指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。
Studio数据架构的数据标准自动生成质量作业的功能,MRS集群版本必须是2.0.3及以上版本,集群必须包含Hive和Spark组件,集群总节点数至少4个。本示例需要使用该功能,因此必须满足这个条件。 如果选择集群后连接失败,请检查MRS集群与作为Agent的CDM实例是否网络互通。网络互通需满足如下条件:
选择数据指标 单击左侧导航栏中“流程设计”,进入流程设计页面,在流程树中选中一个流程,单击按钮在所选流程下新建流程。首次新建流程时,可选择在流程的根节点下新建流程。 图2 流程设计 在弹出对话框中配置如下参数,然后单击“确定”完成流程的创建。 图3 新建流程 表1 新建流程参数说明 参数名
当数据连接类型是DLI时,才需要配置配置该参数。 *数据表 选择数据表。 最多可选5个数据表。如果要取消,选中下图中已关联的数据表,请先删除对应节点。 表达式配置 *设定表达式 根据实际情况选择所需要的函数和字段,并设定表达式。函数列表及函数说明请参考函数说明。 描述 描述信息。支持的长度为0~600个字符。
DWS_VIEW:不支持设置压缩等级。 DISTRIBUTE BY 该参数仅DWS连接类型有效。可选取多个字段。 REPLICATION:在每一个DN节点上存储一份全量表数据。这种存储方式的优点是每个DN上都有此表的全量数据,在join操作中可以避免数据重分布操作,从而减小网络开销;缺点是每
作业调度支持多种云服务的多种类型的任务混合编排,高性能的调度引擎已经经过几百个应用的检验。 运维监控 支持对作业进行运行、暂停、恢复、终止等多种操作。 支持查看作业和其内各任务节点的运行详情。 支持配置多种方式报警,作业和任务发生错误时可及时通知相关人,保证业务正常运行。 数据质量:可控可检验 数据质量模块支持对业务
过期时间天数,包周期实例有效。 expire_time Number 过期时间点,包周期有效。 lock_check_endpoint String CBC锁定节点域名。 create_user String 创建用户。 create_time Number 创建时间点。 domain_id String
队列权限可以为当前工作空间分配可使用的MRS Yarn和DLI队列资源,并为用户组/用户配置对应的队列权限策略。 当为工作空间分配队列资源后,在数据开发组件在为作业节点配置队列资源时,可选择的队列为当前空间下已分配的队列资源。 当为用户组/用户配置队列权限策略后,授权对象将按照策略内容被授予相应权限。 配置空间资源权限策略
如果通过DataArts Studio数据开发使用参数传递并调度CDM迁移作业时,不能在CDM迁移作业中配置“作业失败重试”参数,如有需要请在数据开发中的CDM节点配置“失败重试”参数。 不重试 作业分组 选择作业的分组,默认分组为“DEFAULT”。在CDM“作业管理”界面,支持作业分组显示、按组批量启动作业、按分组导出作业等操作。
关系数据库连接 介绍 通过JDBC连接,可以对以下关系型数据库抽取、加载数据: 云数据库 PostgreSQL 云数据库 SQL Server PostgreSQL Microsoft SQL Server 连接样例 { "links": [ {
BY字段,可选取多个字段。 DWS表当前支持复制(Replication)和散列(Hash)两种分布策略。 REPLICATION:在每一个DN节点上存储一份全量表数据。这种存储方式的优点是每个DN上都有此表的全量数据,在join操作中可以避免数据重分布操作,从而减小网络开销;缺点是每
该参数仅DWS连接类型有效。DWS表当前支持复制(Replication)和散列(Hash)两种分布策略。用户可选取多个字段。 REPLICATION方式:在每一个DN节点上存储一份全量表数据。这种存储方式的优点是每个DN上都有此表的全量数据,在join操作中可以避免数据重分布操作,从而减小网络开销;缺点是每
SQL脚本的运行程序参数,除了在SQL脚本中参考语句“set hive.exec.parallel=true;”配置参数,也可以在对应作业节点属性的“运行程序参数”中配置该参数。 图1 运行程序参数 支持设置脚本责任人 单击编辑器右侧的“脚本基本信息”,可设置脚本的责任人和描述信息。
云数据库MySQL/MySQL数据库连接参数说明 连接MySQL数据库连接时,相关参数如表1所示。 作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户,密码不会立即生效且作业会运行失败。 表1 MySQL数据库连接参数 参数名 说明 取值样例 名称 连接的名