华为云用户手册

  • 企业模式对使用流程的影响 简单模式工作空间下, DataArts Studio 数据开发组件以及对应管理中心组件无法设置开发环境和生产环境,只能进行简单的数据开发,无法对数据开发流程和表权限进行强管控。提交脚本或作业后,您无需发布,脚本或作业即可进入调度系统周期性执行,产出结果数据。 图7 简单模式流程 企业模式下,DataArts Studio数据开发组件以及对应管理中心组件的数据连接支持设置开发环境和生产环境,有效隔离开发者对生产环境业务的影响。其中:开发环境只针对开发人员开放,只用于脚本或作业开发,开发完后发布到生产环境中。生产环境内不能做任何修改,只对最终用户开放,任何修改必须回退到开发环境中重新修改发布。 图8 企业模式流程
  • 不同模式工作空间的优劣势对比 表3 不同模式工作空间的优劣势对比 对比 简单模式 企业模式 优势 简单、方便、易用。 仅需要授权数据开发人员“开发者”角色即可完成所有数据开发工作。 提交脚本或作业后,您无需发布,脚本或作业即可进入调度系统周期性执行,产出结果数据。 安全、规范。 具备安全、规范的代码发布管控流程(包含代码评审、代码DIFF查看等功能),保障生产环境稳定性,避免不必要的因代码逻辑引起的脏数据蔓延或任务报错等非预期情况。 数据访问得到有效管控,数据安全得以保障。 所有脚本或作业仅支持在开发环境编辑,开发者无法修改生产环境的脚本或作业。 开发环境和生产环境的数据隔离,开发者无法影响生产环境的数据。 开发环境下,脚本、作业以当前开发者的身份执行;生产环境下,脚本、作业则使用空间级的公共 IAM 账号或公共委托执行。 如果需要对生产环境进行变更,必须在开发环境通过开发者的发布操作才能将变更提交到生产环境,需要管理者或部署者审批通过,才能发布成功。 劣势 存在不稳定、不安全的风险。 无法设置开发环境和生产环境隔离,只能进行简单的数据开发。 无法对生产表权限进行控制。 说明: 开发调测阶段,开发者可直接访问生产 数据湖 的数据,随意对表进行增加、删除和修改等操作,存在数据安全风险。 无法对数据开发流程进行管控。 说明: 开发者可以不经过任何人审批,随时新增、修改脚本或作业并提交至调度系统,给业务带来不稳定因素。 流程相对复杂,一般情况下无法一人完成所有数据开发、生产流程。
  • 背景信息 本文内容由以下几部分构成,从不同角度分别为您解决企业模式不同的问题。 表1 了解企业模式 分类 说明 简单模式与企业模式介绍 不同工作空间模式的介绍。 不同模式工作空间对生产任务开发与运维的影响 DataArts Studio建立于对应工作空间物理属性之上的任务开发与运维机制介绍。 不同模式工作空间的优劣势对比 不同工作空间模式的优劣势对比。 企业模式对使用流程的影响 介绍企业模式工作空间下的流程管控。 不同工作空间模式下,DataArts Studio模块对应操作 简单模式仅有生产环境,企业模式有开发环境和生产环境,此部分为您介绍各个环境与DataArts Studio模块的对应关系。
  • 常用EL表达式样例合集 本章节介绍常用的EL表达式及示例。 表1 常用的EL表达式 方法 描述 示例 String getNodeStatus(String nodeName) 获取指定节点运行状态,成功状态返回success,失败状态返回fail。 例如,判断节点是否运行成功,可以使用如下判断条件,其中test为节点名称: #{(Job.getNodeStatus("test")) == "success" } 获取test节点运行状态。 #{Job.getNodeStatus("test")} String getNodeOutput(String nodeName) 获取指定节点的输出。此方法只能获取前面依赖节点的输出。 获取test节点输出。 #{Job.getNodeOutput("test")} 当前一节点执行无结果时,输出结果为“null”。 当前一节点的输出结果是一个字段时,输出结果形如[["000"]]所示。此时可通过EL表达式分割字符串结果,获取前一节点输出的字段值,但注意输出结果类型为String。需要输出原数据类型时,仍需通过For Each节点及其支持的Loop内嵌对象EL表达式获取。 #{StringUtil.split(StringUtil.split(StringUtil.split(Job.getNodeOutput("前一节点名"),"]")[0],"[")[0],"\\"")[0]} 当前一节点的输出结果是多个(两个及以上)字段时,输出结果形如[["000"],["001"]]所示。此时需要结合For Each节点及其支持的Loop内嵌对象EL表达式如#{Loop.current[0]},循环获取输出结果,详见获取SQL节点的输出结果值。 String getParam(String key) 获取作业参数。 注意此方法只能直接获取当前作业里配置的参数值,并不能获取到父作业传递过来的参数值,也不能获取到工作空间里面配置的全局变量,作用域仅为本作业。 这种情况下建议使用表达式${job_param_name},既可以获取到父作业传递过来的参数值,也可以获取到全局配置的变量。 获取参数test的值: #{Job.getParam("test")} String getPlanTime(String pattern) 获取指定pattern的计划时间字符串,pattern为日期、时间模式,请参考日期和时间模式。 获取作业调度计划时间,具体到毫秒: #{Job.getPlanTime("yyyy-MM-dd HH:mm:ss:SSS")} String getYesterday(String pattern) 获取执行pattern的计划时间前一天的时间字符串,pattern为日期、时间模式,请参考日期和时间模式。 获取作业调度计划时间的前一天的时间,具体到日期: #{Job.getYesterday("yyyy-MM-dd HH:mm:ss:SSS")} String getLastHour(String pattern) 获取执行pattern的计划时间前一小时的时间字符串,pattern为日期、时间模式,请参考日期和时间模式。 获取作业调度计划时间前一小时的时间,具体到小时: #{Job.getLastHour("yyyy-MM-dd HH:mm:ss:SSS")} Date addDays(Date date, int amount) 给date添加指定天数后,返回新Date对象,amount可以是负数。 将作业调度计划减一天的时间,转换为年月日格式。 #{DateUtil.format(DateUtil.addDays(Job.planTime,-1),"yyyy-MM-dd")} int getDay(Date date) 从date获取天,例如:date为2018-09-14,则返回14。 从作业调度计划获取具体的天。 #{DateUtil.getDay(Job.planTime)} Date now() 返回当前时间。 以秒格式返回当前的时间。 #{DateUtil.format(DateUtil.now(),"yyyy-MM-dd HH:mm:ss")} Object path(String jsonStr,String jsonPath) 返回json字符串指定路径下的字段值。类似于XPath,path方法可以通过路径检索或设置JSON,其路径中可以使用.或[]等访问成员、数值,例如:tables[0].table_name。 字符串变量str的内容如下: { "cities": [{ "name": "city1", "areaCode": "1000" }, { "name": "city2", "areaCode": "2000" }, { "name": "city3", "areaCode": "3000" }] } 获取city1的电话区号,EL表达式如下: #{JSONUtil.path(str,"cities[0].areaCode")} current For Each节点在处理数据集的时候,是一行一行进行处理的。Loop.current表示当前遍历到的For Each节点“数据集”中定义的二维数组的某一行,该数据行为一维数组。 一般定义格式为#{Loop.current[0]}、#{Loop.current[1]}或其他。其中[0]表示遍历到的当前行的第一个值,[1]表示遍历到的当前行的第二个值,以此类推。 作为For Each节点的“子作业参数”取值,表示For Each循环遍历中,取“数据集”中二维数组的当前遍历行的第二个值。 #{Loop.current[1]} 父主题: EL表达式参考
  • 前提条件 已新增Python脚本,请参见新建脚本。 已新建主机连接,该Linux主机配有用于执行Python脚本的环境。新建主机连接请参见主机连接参数说明。 连接主机的用户需要具有主机/tmp目录下文件的创建与执行权限。 Shell或Python脚本可以在该E CS 主机上运行的最大并发数由ECS主机的/etc/ssh/sshd_config文件中MaxSessions的配置值确定。请根据Shell或Python脚本的调度频率合理配置MaxSessions的值。 当前用户已锁定该脚本,否则需要通过“抢锁”锁定脚本后才能继续开发脚本。新建或导入脚本后默认被当前用户锁定,详情参见编辑锁定功能。
  • 离线资源管理 离线资源管理为您提供查看当前DataArts Studio实例下所有 CDM 集群的功能,并支持为CDM集群关联不同的工作空间。 只有当CDM集群在关联了工作空间后,才能在所关联的工作空间中使用该CDM集群。 参考访问DataArts Studio实例控制台,以DAYU Administrator或Tenant Administrator账号登录DataArts Studio管理控制台。 单击控制台的“资源管理”页签,进入资源管理页面。 在默认的离线资源管理页签,您可以查看当前实例下的所有CDM集群及其状态、内网地址、公网地址等信息。 单击CDM集群列表中集群名称列的按钮开,可查看该CDM集群的详情信息,例如可用区、虚拟私有云、子网和安全组等网络相关信息,以及规格、集群ID、关联的工作空间等信息。 图1 查看集群详情信息 您可以单击CDM集群列表中操作列的“关联工作空间”,在弹窗中勾选或去勾选该CDM集群关联的工作空间,单击确认即可完成CDM集群与工作空间的关联。 注意,只有当CDM集群在关联了工作空间后,才能在所关联的工作空间中使用该CDM集群。 图2 关联工作空间
  • 数据指标应用 创建完数据指标的相关数据后,请前往数据架构模块,进行数据集市建设,新建数据集市层并发布汇总表。汇总表能够引用指标管理里的指标,发布后进行指标结果物化。 本示例中,先创建汇总表所需的主题,汇总表依赖于主题架构,然后创建汇总表,汇总表名称为地区坪效比汇总表。 创建主题详细信息请参见数据架构的主题设计。 创建汇总表 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据架构”模块,进入数据架构页面。 在数据架构控制台,单击左侧导航树中的“维度建模”,然后选择“汇总表”页签。 在左侧主题目录中选中一个主题,然后单击“新建”按钮,开始创建汇总表。 在“新建汇总表”页面,完成相关配置。 图1 配置基本信息 图2 配置属性信息 配置完成后,单击保存并进行发布。 单击表名称,可以查看汇总表详情。 创建汇总表详细信息请参见数据架构的数据集市。 父主题: 数据指标
  • 指标开发概述 指标是衡量业务特征的统计数值,用于体现企业某一业务活动的业务状况。指标通常分为原子指标和衍生指标,与指标相关的参数还包括统计维度和时间周期。衍生指标则是由原子指标 + 统计维度 + 时间周期组成。 原子指标用于明确业务的统计口径及计算逻辑。在本示例中,经营面积和销售额。 衍生指标由原子指标、统计维度、时间周期三大要素构成,用于统计目标指标在具体时间、维度、业务条件下的数值表现,反映企业某一业务活动的业务状况。例如,统计地区销售额和地区经营面积两个衍生指标数据。 统计维度用于观察和分析业务数据的视角,支撑对数据进行汇聚、钻取、切片分析,用于SQL中的GROUP BY条件。 一个衍生指标中可以包含一个或多个修饰词。 复合指标是由一个或多个衍生指标叠加计算而成,其中的维度、时间周期均继承于衍生指标。 时间周期用于确定需要统计的时间范围。例如,一个自然日,最近一年等。 创建指标的详细信息如下: 创建原子指标,详情请参见原子指标。 创建衍生指标,详情请参见衍生指标。 创建复合指标,详情请参见复合指标。 创建时间周期,详情请参见时间周期。 父主题: 指标开发
  • 新建时间周期并发布 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据指标”模块,进入数据指标页面。 图1 选择数据指标 在数据指标控制台,单击左侧导航树中的“指标开发”,选择“时间周期”页签。 进入时间周期页面后,单击“新建”按钮。 在新建时间周期页面,参考表1配置参数。 图2 时间周期 表1 新建时间周期参数说明 参数名称 说明 *周期名称 只能包含中文、英文字母、数字和下划线,且必须以中文或英文字母开头。 *周期编码 只能包含英文字母、数字和下划线。 *时间配置 可选择“按年”、“按月”、“按日”、“按小时”或“按分钟”,然后根据需要选择“快速选择”或“自定义”进行时间条件的设置。 自定义时,“-”表示从当前时间向前的时间段,“+”表示从当前时间向后的时间段。例如,过去一年到未来三年,可以按年自定义为“-1到+3”或“+3到-1”。 描述 描述信息。支持的长度0~490字符。 基本参数配置完成后,单击“发布”,在弹出框中,选择审核人,单击“确认提交”,提交审核。等待审核人员审核,审核通过后,时间周期创建完成。 如果当前用户已被添加为审核人,则可以勾选“自助审批”,单击“确认提交”后,状态显示为“已发布”。
  • 新建复合指标 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据指标”模块,进入数据指标页面。 图1 选择数据指标 在数据指标控制台,单击左侧导航树中的“指标开发”,选择“复合指标”页签。 在左侧的流程目录中选中一个流程,然后单击“新建”按钮。 在新建复合指标页面,根据页面提示配置基本信息参数。 图2 新建复合指标基本信息 表1 新建复合指标参数说明 参数名称 说明 *复合指标名称 只能包含中文、英文字母、数字和下划线,且必须以中文或英文字母开头。 例如,地区坪效比。 *复合指标编码 只能包含英文字母、数字和下划线,且必须以英文字母开头。 所属流程 选择所属流程信息。如果您还未创建流程,请参见流程设计进行创建。 关联指标定义 选择需要关联的指标定义。选如果您还未创建指标定义,请参见指标定义进行创建。 数据类型 选择复合指标的数据类型。 例如,双精度(DOUBLE)。 *复合指标类型 当前支持如下几种类型。 表达式 同比 环比 描述 描述信息。支持的长度为0~600个字符。 表达式 *设定表达式 选择所需要的衍生指标或复合指标,并根据实际需求在“表达式”中设置表达式。 例如,选择衍生指标,表达式设置为地区销售额/地区经营面积。 同比 *同比配置 选择年同比、月同比或者周同比。 *设定衍生指标 选择所需要的所属流程和衍生指标,此处仅展示有时间周期衍生指标。系统会根据同比配置,利用时间周期自动计算同比增长率。 环比 *设定衍生指标 选择所需要的所属流程和衍生指标,此处仅展示有时间周期衍生指标。系统会利用时间周期自动计算环比增长率。 基本参数配置完成后,单击“代码配置”,可以查看系统生成的伪代码。 单击“生成伪代码”,可以对已经生成的伪代码进行刷新。单击“复制到指标代码”可以复制代码到下面的指标代码,单击“格式化”,可以对指标代码进行格式化。 在页面下方,单击“保存”按钮。 单击“发布”,在弹出框中,选择审核人,单击“确认提交”,提交审核。等待审核人员审核,审核通过后,复合指标创建完成。 如果当前用户已被添加为审核人,则可以勾选“自助审批”,单击“确认提交”后,状态显示为“已发布”。 查看复合指标详情,如下图所示:
  • 新建衍生指标并发布 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据指标”模块,进入数据指标页面。 图1 选择数据指标 在数据指标控制台,单击左侧导航树中的“指标开发”,选择“衍生指标”页签进入衍生指标页面。 在左侧的流程目录中选中一个流程,单击“新建”按钮,开始新建衍生指标。 在新建衍生指标页面,根据页面提示配置基本信息参数。在本示例中,需要创建地区销售额和地区经营面积两个衍生指标数据。 图2 新建衍生指标基本信息1 表1 新建衍生指标基本信息参数说明 参数名称 说明 *衍生指标名称 输入衍生指标名称。 例如,地区销售额。 *衍生指标编码 输入衍生指标编码。 *原子指标 选择需要关联的原子指标。如果您还未创建原子指标,请参见原子指标进行创建。 数据类型 选择数据类型。 例如,字符类型(STRING)。 所属流程 选择指标所属的流程。如果您还未创建流程,请参见流程设计进行创建。 关联指标定义 选择需要关联的指标定义。如果您还未创建指标定义,请参见指标定义进行创建。 统计维度 支持手动输入,也可以在下拉列表中选择已经创建的维度。维度的创建请参见新建维度。 已创建的统计维度来自数据架构模块。 单击“查看映射关系”,可以查看映射关系配置的维度信息,并选择维度对应的字段。 例如,该示例中,统计维度设置为地区。 时间周期 在下拉框中选择所需要的时间周期,并选择关联的字段。系统预置了一些时间周期,如果不能满足需求,请参考时间周期进行创建。 过滤条件名称 输入过滤条件名称。 过滤条件类型 设置过滤条件类型。 业务定义 输入过滤条件的业务定义。支持的长度为0~600个字符。 表达式 通过函数和字段配置表达式。 描述 描述信息。支持的长度为0~600个字符。 基本参数配置完成后,单击“代码配置”,可以查看系统生成的伪代码。 单击“生成伪代码”,可以对已经生成的伪代码进行刷新。单击“复制到指标代码”可以复制代码到下面的指标代码,单击“格式化”,可以对指标代码进行格式化。 在页面下方,单击“保存”按钮。 单击“发布”,在弹出框中,选择审核人,单击“确认提交”,提交审核。等待审核人员审核,审核通过后,衍生指标创建完成。 如果当前用户已被添加为审核人,则可以勾选“自助审批”,单击“确认提交”后,状态显示为“已发布”。 衍生指标创建完成后可以查看衍生指标详情。 (可选)参考步骤2~步骤7,完成其他衍生指标的发布。在本示例中,原子指标除了地区销售额,还需要在创建一个地区销售面积。 图3 新建衍生指标基本信息2 衍生指标创建完成后,如下图所示:
  • 新建原子指标并发布 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据指标”模块,进入数据指标页面。 图1 选择数据指标 在数据指标控制台,单击左侧导航树中的“指标开发”,选择“原子指标”页签进入原子指标页面。 在左侧流程目录中选中一个流程,单击“新建”按钮,开始新建原子指标。 在新建原子指标页面,参考表1配置参数。在本示例中,需要创建经营面积和销售额两个原子指标数据。 图2 新建原子指标1(配置基本信息、配置数据对象) 图3 新建原子指标1(配置表达式) 表1 新建原子指标参数说明 参数名称 说明 基本信息 *指标名称 只能包含中文、英文字母、数字和下划线,且以中文或英文字母开头。 例如,经营面积。 *指标编码 输入指标编码。 所属流程 选择指标所属的流程。如果您还未创建流程,请参见流程设计进行创建。 关联指标定义 选择需要关联的指标定义。如果您还未创建指标定义,请参见指标定义进行创建。 数据类型 选择数据类型。 例如,双精度(DOUBLE)。 数据对象配置 *数据连接类型 选择数据连接类型。 *数据连接 选择数据连接。 *数据库 选择数据库。 Schema 选择Schema。 只有部分数据连接类型需要配置该参数。比如DWS、POSTGRESQL。 *队列 选择队列。 当数据连接类型是 DLI 时,才需要配置配置该参数。 *数据表 选择数据表。 最多可选5个数据表。如果要取消,选中下图中已关联的数据表,请先删除对应节点。 表达式配置 *设定表达式 根据实际情况选择所需要的函数和字段,并设定表达式。函数列表及函数说明请参考函数说明。 描述 描述信息。支持的长度为0~600个字符。 基本参数配置完成后,单击“发布”,在弹出框中,选择审核人,单击“确认提交”,提交审核。等待审核人员审核,审核通过后,原子指标创建完成。 如果当前用户已被添加为审核人,则可以勾选“自助审批”,单击“确认提交”后,状态显示为“已发布”。 原子指标创建完成后可以查看原子指标详情。 (可选)参考步骤3~步骤5,完成其他原子指标的发布。在本示例中,原子指标除了经营面积,还需要在创建一个销售额。 图4 新建原子指标2(配置基本信息、配置数据对象) 图5 新建原子指标2(配置表达式) 原子指标创建完成后,如下图所示:
  • 函数说明 新建原子指标时,需要按照函数设定表达式。以聚合函数的部分函数为例,函数说明如表3所示: 表3 聚合函数说明 函数名 表达式 函数说明 avg(col) avg() 求平均值。 corr(col1, col2) corr() 返回两列数值的相关系数。 count(*) count() 返回记录条数。 covar_pop(col1, col2) covar_pop() 返回两列数值协方差。 covar_samp(col1, col2) covar_samp() 返回两列数值样本协方差。 max(col) max() 返回最大值。 min(col) min() 返回最小值。 stddev_pop(col) stddev_pop() 返回指定列的偏差。 stddev_samp(col) stddev_samp() 返回指定列的样本偏差。 sum(col) sum() 求和。 var_samp(col) var_samp() 返回指定列的样本方差。 如果想要查询更多函数的功能及说明,可以在新建原子指标页面的基本信息中的设定表达式项,单击对应函数,在页面右侧的函数说明框中会显示对应的函数说明。 图7 函数说明
  • 下线指标定义 对于已发布的指标定义,可以执行以下步骤下线指标定义: 在数据指标控制台,单击左侧导航树中的“指标定义”,进入指标定义页面。 在指标定义列表中找到需要下线的指标定义,单击“下线”,在弹出框中,选择审核人,单击“确认提交”,提交审核。等待审核人员审核,审核通过后,完成指标定义的下线。 如果当前用户已被添加为审核人,则可以勾选“自助审批”,单击“确认提交”后,状态显示为“已下线”。 只有当业务指标处于已发布状态且没有下展信息时,才能执行此操作。
  • 新建指标定义并发布 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据指标”模块,进入数据指标页面。 图1 选择数据指标 在数据指标控制台,单击左侧导航树中的“指标定义”,进入指标定义页面。 在左侧的流程目录中选中一个流程,单击“新建”开始新建指标定义。 在“新建指标定义”页面,请根据以下步骤配置参数。 填写“基本信息”参数。 图2 新建指标定义 表1 指标基本信息参数 参数说明 说明 *指标名称 指标定义的名称。只能包含中文、英文字母,数字,下划线,中划线,左右括号,逗号,空格以及以下特殊字符+#[]/,且不以空格开头或结尾。 例如:地区坪效比。 指标编码 指标编码是自动生成的,生成规则可以在DataArts Studio数据架构的“配置中心”页面进行配置,详情请参见编码规则。 指标别名 可选参数。 例如:地区坪效。 *所属流程 选择该指标所属的流程。如果您还未创建流程,请参见流程设计进行创建。 *设置目的 描述设置该指标的目的。 例如:用于衡量地区的商场经营效益,支撑商业决策。 *业务定义 描述该指标的业务定义。 例如:在某一地区,每坪的经营面积可以产出多少营业额。 备注 根据实际需要填写备注信息。 配置指标数据信息。 图3 指标数据信息 表2 指标数据信息参数 参数说明 说明 *计算公式 定义指标定义的计算逻辑,以便指导开发者根据计算公式设计原子指标、衍生指标。指标定义是为了指导指标开发的落地,实际并不做运算。 例如,过去一年中,地区订单总金额 / 地区有效经营面积总和。 *统计周期 选择该指标的统计周期,以便指导开发者根据统计周期设计时间周期。 统计周期是系统预设的,系统会提供默认值。 统计维度 支持手动输入,也可以在下拉列表中选择已经创建的维度。维度的创建请参见新建维度。 已创建的统计维度来自数据架构模块。 例如,该示例中,统计维度设置为地区。 统计口径和修饰词 用于度量范围的设定。 例如,有效经营面积:指门店状态为open的店经营面积之和。 *刷新频率 选择指标的刷新频率。开发者或运维者可以依据指标的刷新频率,合理设置指标开发的调度频率。 指标应用场景 描述指标的应用场景。 例如,用于衡量地区经营效益,支撑商业决策。 度量对象 衡量该指标的度量字段。 例如,该示例中,可以设置为营业额。 计量单位 指标的计量单位。 例如,该示例中,可以设置为元。 配置管理信息。 图4 管理信息 表3 管理信息参数说明 参数说明 说明 数据来源 描述数据来源,也就是数据的产生者。 例如,门店IT系统上报 *指标管理部门 指标的管理部门。 例如,数据平台部 *指标责任人 指标的责任人,可以手动输入责任人名字或直接选择已有的责任人。 配置完成后,单击“发布”,在弹出框中,选择审核人,单击“确认提交”,提交审核。等待审核人员审核,审核通过后,指标定义创建完成。 如果当前用户已被添加为审核人,则可以勾选“自助审批”,单击“确认提交”后,状态显示为“已发布”。 指标定义创建完成后可以查看指标定义详情。 可以参照步骤3~步骤5,完成其他指标定义的创建和发布。
  • 删除指标定义 如果您已不再需要某个指标定义,可以删除该指标定义。如果待删除的指标定义已发布,则无法执行删除操作,您必须先将该指标定义下线后,才能执行删除操作。 在数据指标控制台,单击左侧导航树中的“指标定义”,进入指标定义页面。 在维度列表中找到需要删除的指标定义,勾选该指标定义,然后单击指标定义列表上方“更多”中的“删除”。 图6 删除指标定义 在系统弹出的“删除”对话框中,确认无误后,单击“是”将指标定义删除。
  • 导入流程 在数据指标控制台,单击左侧导航树中的“流程设计”,进入流程设计页面。 单击流程列表上方的“导入”按钮导入流程。 在“导入流程”对话框中,根据页面提示配置如下参数,然后先单击“添加文件”后,再单击“上传文件”。 图5 导入流程 表2 导入配置参数说明 参数名 说明 更新已有数据 如果所要导入的流程,在DataArts Studio数据指标中已经存在,是否更新已有的流程。支持以下选项: 不更新:当流程已存在时,将直接跳过,不处理。 更新:当流程已存在时,更新已有的流程信息。 在导入流程时,只有创建或更新操作,不会删除已有的流程。 上传模板 选择所需导入的流程设计文件。 所需导入的流程设计文件,可以通过以下两种方式获得。 下载流程模板并填写模板 在“导入配置”页签内,单击“下载流程模板”下载模板,然后根据业务需求填写好模板中的相关参数并保存后,先添加再上传,完成模板上传。模板参数的详细描述请参见表3。 导出的流程 您可以将某个DataArts Studio实例的数据指标中已建立的流程设计信息导出到Excel文件中。导出后的文件可用于导入。导出流程的操作请参见导出流程。 下载的流程模板参数如表3所示,其中名称前带“*”的参数为必填参数,名称前未带“*”的参数为可选参数。一个流程需要填写一条记录。 表3 流程导入参数说明 参数名 说明 上级流程 第一层的流程,其上级流程为空,不用填。 非第一层的流程,其上级流程不能为空。上级流程为多级流程时,流程之间以“/”分隔。例如“集成产品开发/开发生命周期”。 *名称 流程名称。 *责任人 流程的责任人。 描述 流程的描述信息。 导入结果会在“导入流程”对话框的“上次导入”中显示。如果导入结果为“成功”,单击“关闭”完成导入。如果导入失败,您可以在“备注”列查看失败原因,将模板文件修改正确后,再重新上传。
  • 新建流程 根据业务需求设计流程,流程支持三层至七层,如需要修改,请参考流程层级数。流程设计最小三层,最大可支持七层。一般从L1顶层开始设计。 一般而言,L1表示流程分类/流程组,回答why to do;L2表示流程,回答what to do;L3表示活动和任务,回答how to do,最小的粒度。用户可根据自己的实际业务需要进行流程的划分和创建。 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据指标”模块,进入数据指标页面。 图1 选择数据指标 单击左侧导航栏中“流程设计”,进入流程设计页面,在流程树中选中一个流程,单击按钮在所选流程下新建流程。首次新建流程时,可选择在流程的根节点下新建流程。 图2 流程设计 在弹出对话框中配置如下参数,然后单击“确定”完成流程的创建。 图3 新建流程 表1 新建流程参数说明 参数名 说明 *流程名称 流程名称,只能包含中文、英文字母、数字和下划线。 *责任人 流程的责任人,可以手动输入名字或直接选择已有的责任人。 上级流程 选择所属的上级流程。 描述 流程的描述信息。 依次新建更多的流程或子流程。一般需要设计L1~L3三层流程。第一层标识为L1层,第二层标识为L2层,第三层标识为L3。流程设计最小三层,最大可支持七层。一般从L1顶层开始设计。 示例如下,L1表示运营,L2表示门店运营,L3表示进销存管理。 图4 流程设计示例
  • 实时集成作业监控:查看作业详细信息 单击作业名称,可以查看该作业的详细信息。 选择“基本信息”,查看该作业的基本信息。 选择“监控信息”,查看该作业的监控信息。 单击“查看监控指标”,进入 云监控服务 界面查看该作业的相关监控指标。 单击“创建告警规则”,进入 云监控 服务的创建告警规则界面,创建该作业的告警规则。 查看已创建的告警规则,包含“名称/ID”、“告警策略”。 查看作业同步进度信息。 选择“日志信息”,查看该作业的详细日志信息,对日志进行下载。
  • 配置作业参数 单击编辑器右侧的“参数”,展开配置页面,配置如表4所示的参数。 表4 作业参数配置 功能 说明 变量 新增 单击“新增”,在文本框中填写作业参数的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、点号、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1。 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为${参数名称}。 编辑参数表达式 在参数值文本框后方,单击,编辑参数表达式,更多表达式请参见表达式概述。 修改 在参数名和参数值的文本框中直接修改。 掩码显示 在参数值为密钥等情况下,从安全角度,请单击将参数值掩码显示。 删除 在参数值文本框后方,单击,删除作业参数。 常量 新增 单击“新增”,在文本框中填写作业常量的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、点号、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1。 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为${参数名称}。 编辑参数表达式 在参数值文本框后方,单击,编辑参数表达式,更多表达式请参见表达式概述。 修改 在参数名和参数值的文本框中直接修改,修改完成后,请保存。 删除 在参数值文本框后方,单击,删除作业常量。 工作空间环境变量 查看工作空间已配置的变量和常量。 单击“作业参数预览”页签,展开预览页面,配置如表5所示的参数。 表5 作业参数预览 功能 说明 当前时间 仅单次调度才显示。系统默认为当前时间。 事件触发时间 仅事件驱动调度才显示。系统默认为事件触发时间。 周期调度 仅周期调度才显示。系统默认为调度周期。 具体时间 仅周期调度才显示。周期调度配置的具体运行时间。 起始日期 仅周期调度才显示。周期调度的生效时间。 后N个实例 作业运行调度的实例个数。 单次调度场景默认为1。 事件驱动调度场景默认为1。 周期调度场景 当实例数大于10时,系统最多展示10个日期实例,系统会自动提示“当前参数预览最多支持查看10个实例”。 在作业参数预览中,如果作业参数配置存在语法异常情况系统会给出提示信息。 如果参数配置了依赖作业实际运行时产生的数据,参数预览功能中无法模拟此类数据,则该数据不展示。
  • 配置作业参数 单击编辑器右侧的“参数”,展开配置页面,配置如表4所示的参数。 表4 作业参数配置 功能 说明 变量 新增 单击“新增”,在文本框中填写作业参数的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、点号、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为:${参数名称} 编辑参数表达式 在参数值文本框后方,单击,编辑参数表达式,更多表达式请参见表达式概述。 修改 在参数名和参数值的文本框中直接修改。 掩码显示 在参数值为密钥等情况下,从安全角度,请单击将参数值掩码显示。 删除 在参数值文本框后方,单击,删除作业参数。 常量 新增 单击“新增”,在文本框中填写作业常量的名称和参数值。 参数名称 名称只能包含字符:英文字母、数字、点号、中划线和下划线。 参数值 字符串类的参数直接填写字符串,例如:str1 数值类的参数直接填写数值或运算表达式。 参数配置完成后,在作业中的引用格式为:${参数名称} 编辑参数表达式 在参数值文本框后方,单击,编辑参数表达式,更多表达式请参见表达式概述。 修改 在参数名和参数值的文本框中直接修改,修改完成后,请保存。 删除 在参数值文本框后方,单击,删除作业常量。 工作空间环境变量 查看工作空间已配置的变量和常量。 单击“作业参数预览”页签,展开预览页面,配置如表5所示的参数。 表5 作业参数预览 功能 说明 当前时间 仅单次调度才显示。系统默认为当前时间。 事件触发时间 仅事件驱动调度才显示。系统默认为事件触发时间。 周期调度 仅周期调度才显示。系统默认为调度周期。 具体时间 仅周期调度才显示。周期调度配置的具体运行时间。 起始日期 仅周期调度才显示。周期调度的生效时间。 后N个实例 作业运行调度的实例个数。 单次调度场景默认为1。 事件驱动调度场景默认为1。 周期调度场景 当实例数大于10时,系统最多展示10个日期实例,系统会自动提示“当前参数预览最多支持查看10个实例”。 在作业参数预览中,如果作业参数配置存在语法异常情况系统会给出提示信息。 如果参数配置了依赖作业实际运行时产生的数据,参数预览功能中无法模拟此类数据,则该数据不展示。
  • 配置 MRS Flink Jar作业 表1 配置MRS Flink Jar作业属性参数 参数 是否必选 说明 Flink作业名称 是 输入Flink作业名称。 系统支持Flink作业名称按照工作空间-作业名称格式自动填入。 作业名称只能包含英文字母、数字、中划线和下划线,且长度为1~64个字符,不能包含中文字符。 MRS集群名 是 选择MRS集群名称。 说明: 单任务Flink Jar目前支持的MRS集群版本是MRS 3.2.0-LTS.1及以上版本。 运行程序参数 否 配置作业运行参数。当选择了MRS集群名后,该参数才显示。 该参数为本次执行的作业配置相关优化参数(例如线程、内存、CPU核数等),用于优化资源使用效率,提升作业的执行性能。 注意: 系统支持Flink Jar作业运行前能够查询历史checkpoint,并选择从指定checkpoint启动。要使Flink Checkpoin生效,需要配置两个运行参数: 用来控制checkpoint间隔 -yD:execution.checkpointing.interval=1000 用来控制保留的checkpoint数量 -yD:state.checkpoints.num-retained=10 查询checkpoint列表时,配置-s参数,鼠标单击参数值输入框,checkpoint列表参数值会自动弹出。 说明: 若集群为MRS 1.8.7版本或MRS 2.0.1之后版本,需要配置此参数。 单击“选择模板”,选择已创建好的脚本模板,系统支持可以引用多个模板。创建模板的详细操作请参见配置模板。 MRS Flink作业的运行程序参数,请参见《MapReduce用户指南》中的运行Flink作业。 Flink作业执行参数 否 配置Flink作业执行参数。 Flink程序执行的关键参数,该参数由用户程序内的函数指定。多个参数间使用空格隔开。 MRS资源队列 否 选择已创建好的MRS资源队列。 需要先在数据安全服务队列权限功能中,配置对应的队列后,才能在此处选择到已配置的队列。当有多处同时配置了资源队列时,此处配置的资源队列为最高优先级。 Flink作业资源包 是 选择Jar包。在选择Jar包之前,您需要先将Jar包上传至OBS桶中,并在“资源管理”页面中新建资源将Jar包添加到资源管理列表中,具体操作请参考新建资源。 重跑策略 否 从上一个检查点重跑 重新启动 输入数据路径 否 设置输入数据路径,系统支持从HDFS或OBS的目录路径进行配置。 输出数据路径 否 设置输出数据路径,系统支持从HDFS或OBS的目录路径进行配置。 表2 配置高级参数 参数 是否必选 说明 作业状态轮询时间(秒) 是 设置轮询时间(30~60秒、120秒、180秒、240秒、300秒),每隔x秒查询一次作业是否执行完成。 作业运行过程中,根据设置的作业状态轮询时间查询作业运行状态。 最长等待时间 是 设置作业执行的超时时间,如果作业配置了重试,在超时时间内未执行完成,该作业将会再次重试。 说明: 如果作业一直处于启动中状态,没有成功开始运行,超时后作业会被置为失败。 失败重试 否 节点执行失败后,是否重新执行节点。 是:重新执行节点,请配置以下参数。 超时重试 最大重试次数 重试间隔时间(秒) 否:默认值,不重新执行节点。 说明: 如果作业节点配置了重试,并且配置了超时时间,该节点执行超时后,系统支持再重试。 当节点运行超时导致的失败不会重试时,您可前往“默认项设置”修改此策略。 当“失败重试”配置为“是”才显示“超时重试”。 参数设置完成后,单击“保存”,并提交该作业。 单击“启动”,运行该作业。
  • 约束与限制 仅当前工作空间的管理员或者拥有DAYU Administrator、Tenant Administrator权限的用户,可新建、修改和删除审批人。 审批人必须为当前工作空间管理员或者拥有DAYU Administrator、Tenant Administrator权限的用户。 当前工作空间为企业模式时,通过任务发布方式进行单据的审批操作,不支持提交脚本或者作业进行审批。 开启审批功能时,相关API的请求体需要增加审批人属性,具体见作业开发API。 审批开关的配置、作业和脚本的审批只能在前台界面进行操作。 有实时Pipeline作业的情况下,不允许打开审批开关。 审批开关打开后,审批中心功能对审批人和单据提交人都可见。审批开关关闭时,仅当前工作空间的管理员或者拥有DAYU Administrator、Tenant Administrator权限的用户可以看到审批中心功能,其他用户不可见。 当前工作空间的管理员或者拥有DAYU Administrator、Tenant Administrator权限的用户不允许审批自己的单据。
  • 未合理配置基线承诺时间和预警余量的场景示例 如果基线承诺时间和预警余量设置不合理,可能会造成基线破线,进而导致基线预警不符合预期。 场景一:当基线承诺时间与基线上任务最晚完成时间相同,且基线未设置预警余量。 任务出现异常时,因为没有预留异常处理时间,容易造成基线破线,基线报警频繁。 场景二:当预警余量设置不合理,即基线预警时间(基线承诺时间-余量)在基线上任务最晚完成时间段内。 任务出现异常时,因为预留的异常处理时间不够,容易造成基线破线,基线报警频繁。 场景三:当基线承诺时间设置不合理,即基线承诺时间设置在基线上任务最晚完成时间之前。 任务将无法在基线承诺时间内完成,基线预警功能会在当天零点进行提前预警。
  • 配置YASHAN源端参数 作业中源连接从YASHAN导出的数据时,源端作业参数如表1所示。 表1 YASHAN作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 使用SQL语句 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 否 SQL语句 “使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。 说明: SQL语句只能查询数据,支持join和嵌套写法,但不能有多条查询语句,比如 select * from table a; select * from table b。 不支持with语句。 不支持注释 ,比如 "--" ,“/*”。 不支持增删改操作,包括但不限于以下操作: load data delete from alter table create table drop table into outfile 如果SQL语句过长,会导致请求过长下发失败,继续创建作业系统会报错“错误请求”,此时您需要简化或清空SQL语句,再次尝试继续创建作业。 select id,name from sqoop.user; 模式或表空间 “使用SQL语句”选择“否”时,显示该参数,表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面,用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的账号是否有元数据查询的权限。 说明: 该参数支持配置通配符(*),实现导出以某一前缀开头或者以某一后缀结尾的所有数据库。例如: SCHEMA*表示导出所有以“SCHEMA”开头的数据库。 *SCHEMA表示导出所有以“SCHEMA”结尾的数据库。 *SCHEMA*表示数据库名称中只要有“SCHEMA”字符串,就全部导出。 SCHEMA_E 表名 “使用SQL语句”选择“否”时,显示该参数,表示要抽取的表名。单击输入框后面的按钮可进入表的选择界面,用户也可以直接输入表名称。 如果选择界面没有待选择的表,请确认表是否已经创建,或者对应连接里的账号是否有元数据查询的权限。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 该参数支持配置正则表达式,实现导出满足规则的所有数据库。例如:表名配置为user_[0-9]{1,2},会匹配 user_0 到 user_9,user_00 到 user_99 的表。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 table 高级属性 Where子句 “使用SQL语句”选择“否”时,显示该参数,表示配置抽取范围的Where子句,不配置时抽取整表。 该参数支持配置为时间宏变量,实现抽取指定日期的数据,详细说明请参见关系数据库增量迁移。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 DS='${dateformat(yyyy-MM-dd,-1,DAY)}' date类型值是否保留一位精度 date类型值是否保留一位精度。 否 抽取分区字段 “使用SQL语句”选择“否”时,显示该参数,表示抽取数据时使用该字段进行数据切分,CDM依据此字段将作业分割为多个任务并发执行。一般使用数据均匀分布的字段,例如以自然增长的序号字段作为分区字段。 单击输入框后面的按钮可进入字段选择界面,用户也可以直接输入抽取分区字段名。 说明: 抽取分区字段支持TINYINT、SMALLINT、INTEGER、BIGINT、REAL、FLOAT、DOUBLE、NUMERIC、DECIMAL、BIT、BOOLEAN、DATE、TIME、TIMESTAMP类型,建议该字段带有索引。 id 分区字段含有空值 是否允许分区字段包含空值。 多并发抽取时,若确定分区字段不含Null,将该值设为“否”可提升性能,若不确定,请设为“是”,否则可能会丢数据。 否 拆分作业 选择“是”,会根据“作业拆分字段”值,将作业拆分为多个子作业并发执行。 说明: 仅支持目的端为DLI和Hive时配置该参数及作业拆分字段、拆分字段最小值、拆分字段最大值、子作业个数参数。 否 作业拆分字段 “拆分作业”选择“是”时,显示该参数,使用该字段将作业拆分为多个子作业并发执行。 - 拆分字段最小值 “拆分作业”选择“是”时,显示该参数,表示抽取数据时“作业拆分字段”的最小值。 - 拆分字段最大值 “拆分作业”选择“是”时,显示该参数,表示抽取数据时“作业拆分字段”的最大值。 - 子作业个数 “拆分作业”选择“是”时,显示该参数,根据“作业拆分字段”的最小值和最大值限定的数据范围,将作业拆分为多少个子作业执行。 - 父主题: 配置CDM作业源端参数
  • YASHAN连接参数说明 连接YASHAN时,相关参数如表1 YASHAN连接参数所示。 作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户,密码不会立即生效且作业会运行失败。 表1 YASHAN连接参数 参数名 说明 取值样例 名称 连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。 yashan_link 数据库服务器 配置为要连接的数据库的IP地址或 域名 。 单击输入框后的“选择”,可获取用户的实例列表。 192.168.0.1 端口 配置为要连接的数据库的端口。 1688 数据库名称 配置为要连接的数据库名称。 dbname 用户名 待连接数据库的用户。该数据库用户需要有数据表的读写权限,以及对元数据的读取权限。 cdm 密码 用户名密码。 - 使用Agent Agent功能待下线,无需配置。 - Agent Agent功能待下线,无需配置。 - 引用符号 可选参数,连接引用表名或列名时的分隔符号,参考对应数据库的产品文档进行配置。 " 驱动版本 不同类型的关系数据库,需要适配不同的驱动,更多详情请参见如何获取驱动。 - 单次请求行数 可选参数,单击“显示高级属性”后显示。 指定每次请求获取的行数,根据数据源端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 1000 SSL加密 可选参数,单击“显示高级属性”后显示。 支持启用SSL加密传输。 是 连接属性 可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。 常见配置举例如下: socketTimeout:配置JDBC连接超时时间,单位为毫秒。 mysql.bool.type.transform:配置mysql读取时,是否将tinyint(1)解析成boolean类型,默认为true。 socketTimeout=300 连接私密属性 自定义私密连接属性。 xxx=xxx 父主题: 配置连接参数
  • 配置LTS源端参数 表1 LTS作为源端时的作业参数 参数名 说明 取值样例 源连接名称 对应关系数据库的表名。 TABLENAME 单次查询数据条数 一次从日志服务查询的数据条数。 128 日志分组 日志组是 云日志 服务进行日志管理的基本单位。 _ 日志流 日志流是日志读写的基本单位。 - 数据消费开始时间 数据消费的开始时间位点,即日志数据到达LogHub(LTS)的时间,该参数为时间范围(左闭右开)的左边界。 20240701235959 数据消费结束时间 数据消费的结束时间位点,为时间范围(左闭右开)的右边界。 20240702235959 父主题: 配置作业源端参数
  • LTS数据连接参数说明(内测) 表1 LTS数据连接 参数 是否必选 说明 数据连接类型 是 LTS连接固定选择为LTS。 数据连接名称 是 数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。 描述 否 为更好地识别数据连接,此处加以描述信息,长度不能超过100个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。 说明: 标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。 适用组件 是 选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。 说明: 当开启离线数据集成或实时数据集成作业特性后,可勾选数据集成组件,勾选后在数据开发组件创建集成作业时支持选择本数据连接。 离线数据集成或实时数据集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 基础与网络连通配置 项目ID 是 适用组件勾选数据集成后,呈现此参数。 DLI服务所在区域的项目ID。 项目ID表示租户的资源,账号ID对应当前账号,IAM用户ID对应当前用户。用户可在对应页面下查看不同Region对应的项目ID、账号ID和用户ID。 注册并登录管理控制台。 在用户名的下拉列表中单击“我的凭证”。 在“API凭证”页面,查看账号名和账号ID、IAM用户名和IAM用户ID,在项目列表中查看项目和项目ID。 KMS密钥 是 通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。 说明: 第一次通过DataArts Studio或KPS使用KMS加密时,会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息,请参见什么是默认密钥。 仅支持通过对称密钥加密,暂不支持非对称密钥。 绑定Agent 是 DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理,所以创建LTS数据连接时,请选择一个CDM集群。如果没有可用的CDM集群,请参考创建CDM集群进行创建。 数据集成配置 域名 是 表示通过内部网络访问集群数据库的访问地址,可填写域名。内网访问域名地址在创建集群时自动生成,您可以通过管理控制台获取访问地址: 根据注册的账号登录DWS云服务管理控制台。 从左侧列表选择实例管理。 单击某一个实例名称,进入实例基本信息页面。在连接信息标签中可以获取到域名和端口等信息。 数据源认证及其他功能配置 访问标识(AK) 是 OBS服务访问标识(AK)。 例如:HCXUET8G37MWF。 密钥(SK) 否 OBS服务访问标识对应的密钥(SK)。 父主题: 配置DataArts Studio数据连接参数
  • 支持的监控指标 实时处理集成作业支持的监控指标如表1所示。 表1 实时处理集成作业支持的监控指标 指标ID 指标名称 指标含义 取值范围 单位 进制 测量对象(维度) 监控周期(原始指标) extract_latency 源库WAL抽取时延 该指标用于统计当前从源库抽取WAL的时延。 ≥ 0 ms ms 不涉及 实时处理集成作业 1分钟 flink_read_records_per_second 作业数据输入速率 展示用户Flink作业的数据输入速率,供监控和调试使用。 ≥ 0 record/s record/s 不涉及 实时处理集成作业 1分钟 flink_write_records_per_second 作业数据输出速率 展示用户Flink作业的数据输出速率,供监控和调试使用。 ≥ 0 record/s record/s 不涉及 实时处理集成作业 1分钟 flink_read_records_total 作业数据输入总数 展示用户Flink作业的数据输入总数,供监控和调试使用。 ≥ 0 record/s record/s 不涉及 实时处理集成作业 1分钟 flink_write_records_total 作业数据输出总数 展示用户Flink作业的数据输出总数,供监控和调试使用。 ≥ 0 record/s record/s 不涉及 实时处理集成作业 1分钟 flink_read_bytes_per_second 作业字节输入速率 展示用户Flink作业每秒输入的字节数。 ≥ 0 Byte/s Byte/s 1024(IEC) 实时处理集成作业 1分钟 flink_write_bytes_per_second 作业字节输出速率 展示用户Flink作业每秒输出的字节数。 ≥ 0 Byte/s Byte/s 1024(IEC) 实时处理集成作业 1分钟 flink_read_bytes_total 作业字节输入总数 展示用户Flink作业字节的输入总数。 ≥ 0 Byte Byte 1024(IEC) 实时处理集成作业 1分钟 flink_write_bytes_total 作业字节输出总数 展示用户Flink作业字节的输出总数。 ≥ 0 Byte Byte 1024(IEC) 实时处理集成作业 1分钟 flink_cpu_usage 作业CPU使用率 展示用户Flink作业的CPU使用率。 0%~100% % 不涉及 实时处理集成作业 1分钟 flink_mem_usage 作业内存使用率 展示用户Flink作业的内存使用率。 0%~100% % 不涉及 实时处理集成作业 1分钟 flink_max_op_latency 作业最大算子时延 展示用户Flink作业的最大算子时延时间。 ≥ 0 ms ms 不涉及 实时处理集成作业 1分钟 flink_max_op_backpressure_level 作业最大算子反压 展示用户Flink作业的最大算子反压值,数值从0-1,数值越大,反压越严重。 0~1 - 不涉及 实时处理集成作业 1分钟 binlog_file_read_per_second 每秒binlog文件数 该指标用于统计每秒binlog读取的文件数。 ≥ 0 count/s count/s 不涉及 实时处理集成作业 1分钟 binlog_file_read_total binlog文件总量 该指标用于统计binlog读取的文件总量。 ≥ 0 count count 不涉及 实时处理集成作业 1分钟 binlog_bytes_per_second 每秒binlog字节量 该指标用于统计每秒binlog读取的字节量。 ≥ 0 byte/s bytes/s 1024(IEC) 实时处理集成作业 1分钟 binlog_bytes_total binlog字节总量 该指标用于统计binlog读取的字节总量。 ≥ 0 bytes bytes 1024(IEC) 实时处理集成作业 1分钟 insert_sink_num 插入目的端的总数 该指标用于统计插入目的端的总条数。 ≥ 0 count count 不涉及 实时处理集成作业 1分钟 update_sink_num 更新目的端的总数 该指标用于统计更新目的端的总条数。 ≥ 0 count count 不涉及 实时处理集成作业 1分钟 delete_sink_num 删除目的端的总数 该指标用于统计删除目的端的总条数。 ≥ 0 count count 不涉及 实时处理集成作业 1分钟 dirty_records_out 脏数据条数 脏数据条数。 ≥ 0 count records 不涉及 实时处理集成作业 1分钟 dirty_bytes_out 脏数据字节数 脏数据字节。 ≥ 0 bytes bytes 1024(IEC) 实时处理集成作业 1分钟 unsupport_ddls_num 不支持的DDL总数 不支持的DDL总数。 ≥ 0 count count 不涉及 实时处理集成作业 1分钟 ignored_ddls_num 忽略的DDL总数 忽略的DDL总数。 ≥ 0 count count 不涉及 实时处理集成作业 1分钟 job_retry_times 任务重试次数 任务重试次数。 ≥ 0 count count 不涉及 实时处理集成作业 1分钟 queue_job_launching_num 提交中作业数 该指标用于统计队列的提交中作业数。 ≥ 0 count Count 不涉及 实时处理集成作业 6分钟 queue_job_running_num 运行中作业数 该指标用于统计队列的运行中作业数。 ≥ 0 count Count 不涉及 实时处理集成作业 6分钟 queue_job_succeed_num 已完成作业数 该指标用于统计队列的已完成作业数。 ≥ 0 count Count 不涉及 实时处理集成作业 6分钟 queue_job_failed_num 已失败作业数 该指标用于统计队列的已失败作业数。 ≥ 0 count Count 不涉及 实时处理集成作业 6分钟 queue_job_cancelled_num 已取消作业数 该指标用于统计队列的已取消作业数。 ≥ 0 count Count 不涉及 实时处理集成作业 6分钟 elastic_resource_pool_cpu_usage 资源组CPU使用率 该指标用于统计资源组已使用核心数占总核心数的百分比。 0% ~ 100% % 不涉及 实时处理集成作业 6分钟 elastic_resource_pool_mem_usage 资源组内存使用率 该指标用于统计资源组已使用内存占申请内存总量的百分比。 0% ~ 100% % 不涉及 实时处理集成作业 6分钟 elastic_resource_pool_disk_usage 资源组磁盘使用率 该指标用于统计资源组磁盘已使用磁盘占申请磁盘总量的百分比。 0% ~ 100% % 不涉及 实时处理集成作业 6分钟 elastic_resource_pool_disk_max_usage 资源组磁盘使用率最大值 该指标用于统计资源组磁盘使用率最大值。 0% ~ 100% % 不涉及 实时处理集成作业 6分钟 elastic_resource_pool_cu_num 资源组CU使用量 该指标用于统计资源组CU使用量。 ≥ 0 count Count 不涉及 实时处理集成作业 6分钟 elastic_resource_pool_min_cu_num 资源组最小CU 该指标用于统计资源组最小CU。 ≥ 0 count Count 不涉及 实时处理集成作业 6分钟 elastic_resource_pool_max_cu_num 资源组最大CU 该指标用于统计资源组最大CU。 ≥ 0 count Count 不涉及 实时处理集成作业 6分钟 elastic_resource_pool_alloc_cu_num 资源组CU分配量 该指标用于统计资源组分配给每个队列的CU数量之和。 ≥ 0 count Count 不涉及 实时处理集成作业 6分钟 apply_ddls_number DDL总数 该指标用于统计向目标库写入的DDL事务总数。 ≥ 0 count Count 不涉及 实时处理集成作业 1分钟 network_incoming_bytes_rate 网络输入吞吐量 该指标用于统计平均每秒从测量对象的所有网络适配器输入的流量。 ≥ 0 byte/s byte/s 1024(IEC) 实时处理集成作业 1分钟 network_outgoing_bytes_rate 网络输出吞吐量 该指标用于统计平均每秒从测量对象的所有网络适配器输出的流量。 ≥ 0 byte/s byte/s 1024(IEC) 实时处理集成作业 1分钟 disk_read_bytes_rate 磁盘读吞吐量 该指标用于统计每秒从磁盘读取的字节数。 ≥ 0 byte/s byte/s 1024(IEC) 实时处理集成作业 1分钟 disk_write_bytes_rate 磁盘写吞吐量 该指标用于统计每秒从磁盘写入的字节数。 ≥ 0 byte/s byte/s 1024(IEC) 实时处理集成作业 1分钟 disk_util 磁盘利用率 该指标用于统计测量对象的磁盘利用率。 0% ~ 100% % 不涉及 实时处理集成作业 1分钟 extract_bytes_rate 读源库吞吐量 该指标用于统计每秒从源库读取表数据或者WAL的字节数。 ≥ 0 byte/s byte/s 1024(IEC) 实时处理集成作业 1分钟 extract_rows_rate 读源库频率 该指标用于统计每秒从源库读取表数据或者WAL的行数。 ≥ 0 row/s row/s 不涉及 实时处理集成作业 1分钟 apply_bytes_rate 写目标库吞吐量 该指标用于统计每秒向目标库写入数据的字节数。 ≥ 0 byte/s byte/s 1024(IEC) 实时处理集成作业 1分钟 apply_rows_rate 写目标库频率 该指标用于统计每秒向目标库写入数据的行数。 ≥ 0 row/s row/s 不涉及 实时处理集成作业 1分钟 lag_records 数据堆积 未消费的数据量。 ≥ 0 records records 不涉及 实时处理集成作业 1分钟 insert_num 插入次数 数据插入次数。 ≥ 0 count Count 不涉及 实时处理集成作业 1分钟 update_num 更新次数 数据更新次数。 ≥ 0 count Count 不涉及 实时处理集成作业 1分钟 delete_num 删除次数 数据删除次数。 ≥ 0 count Count 不涉及 实时处理集成作业 1分钟 apply_transactions_rate DML TPS 该指标用于统计每秒向目标库写入的DML事务数。 ≥ 0 transaction/s transaction/s 不涉及 实时处理集成作业 1分钟 apply_ddls_rate DDL TPS 该指标用于统计每秒向目标库写入的DDL事务数。 ≥ 0 record/s record/s 不涉及 实时处理集成作业 1分钟 apply_latency 数据同步时延 该指标用于统计当前数据同步的时。 ≥ 0 ms ms 不涉及 实时处理集成作业 1分钟
  • 操作步骤 参见新建实时集成作业创建一个实时处理集成作业。 配置数据连接类型。 选择源端和目的端的数据类型,支持的源端与目的端请参见新建实时集成作业。 图1 选择数据连接类型 选择集成作业类型。 同步类型:默认为实时,不可更改。 同步场景:包含单表、整库、分库分表场景,各数据源支持的场景不一,详情请参见使用教程。 不同场景介绍如表1所示。 表1 同步场景参数说明 场景类型 说明 单表 支持将源端一个实例下的单张表实时同步至目的端一个实例下的单张表。 整库 支持将源端一个实例下多个库的多张表批量实时同步到目的端一个实例下的多个库表,一个任务中最多支持200张目标表。 分库分表 支持将源端多个实例下多个分库的多张分表同步到目的端一个实例下的单个库表。 图2 选择集成作业类型 配置网络资源。 选择已创建的源端、目的端数据连接及已配置好网络连接的migration资源组。 图3 选择数据连接及migration资源组 无可选数据连接时,可单击“新建”跳转至管理中心数据连接界面,单击“创建数据连接”创建数据连接,详情请参见配置DataArts Studio数据连接参数进行配置。 无可选migration资源组时,可单击“新建”跳转至购买migration资源组页面创建migration资源组配置,详情请参见购买数据集成资源组增量包进行配置。 检测网络连通性。 数据连接和migration资源组配置完成后需要测试整个迁移任务的网络连通性,可通过以下方式进行数据源和migration资源组之间的连通性测试。 单击展开“源端配置”触发连通性测试,会对整个迁移任务的连通性做校验。 单击源端和目的端数据源和migration资源组中的“测试”按钮进行检测。 网络连通性检测异常可先参考数据源和资源组网络不通如何排查?章节进行排查。 配置源端、目标端参数。 各链路源端或目的端参数配置不同,详情请参见使用教程中对应的文档进行配置。 刷新源表和目标表映射,检查映射关系是否正确,同时可根据需求修改表属性、添加附加字段。 (可选)配置DDL消息处理规则。 实时集成作业除了能够同步对数据的增删改等DML操作外,也支持对部分表结构变化(DDL)进行同步。针对支持的DDL操作,用户可根据实际需求配置为正常处理/忽略/出错。 正常处理:Migration识别到源端库表出现该DDL动作时,作业自动同步到目的端执行该DDL操作。 忽略:Migration识别到源端库表出现该DDL动作时,作业忽略该DDL,不同步到目的端表中。 出错:Migration识别到源端库表出现该DDL动作时,作业抛出异常。 图4 DDL配置 配置任务属性。 表2 任务配置参数说明 参数 说明 默认值 执行内存 作业执行分配内存,跟随处理器核数变化而自动变化。 8GB 处理器核数 范围:2-32。 每增加1处理核数,则自动增加4G执行内存和1并发数。 2 并发数 作业执行支持并发数。该参数无需配置,跟随处理器核数变化而自动变化。 1 自动重试 作业失败时是否开启自动重试。 否 最大重试次数 “自动重试”为是时显示该参数。 1 重试间隔时间 “自动重试”为是时显示该参数。 120秒 是否写入脏数据 选择是否记录脏数据,默认不记录脏数据,当脏数据过多时,会影响同步任务的整体同步速度。 链路是否支持写入脏数据,以实际界面为准。 否:默认为否,不记录脏数据。 表示不允许脏数据存在。如果同步过程中产生脏数据,任务将失败退出。 是:允许脏数据,即任务产生脏数据时不影响任务执行。 允许脏数据并设置其阈值时: 若产生的脏数据在阈值范围内,同步任务将忽略脏数据(即不会写入目标端),并正常执行。 若产生的脏数据超出阈值范围,同步任务将失败退出。 说明: 脏数据认定标准:脏数据是对业务没有意义,格式非法或者同步过程中出现问题的数据;单条数据写入目标数据源过程中发生了异常,则此条数据为脏数据。 因此只要是写入失败的数据均被归类于脏数据。 例如,源端是VARCHAR类型的数据写到INT类型的目标列中,则会因为转换不合理导致脏数据不会成功写入目的端。用户可以在同步任务配置时,配置同步过程中是否写入脏数据,配置脏数据条数(单个分片的最大错误记录数)保证任务运行,即当脏数据超过指定条数时,任务失败退出。 否 脏数据策略 “是否写入脏数据”为是时显示该参数,当前支持以下策略: 不归档:不对脏数据进行存储,仅记录到任务日志中。 归档到OBS:将脏数据存储到OBS中,并打印到任务日志中。 不归档 脏数据写入连接 “脏数据策略”选择归档到OBS时显示该参数。 脏数据要写入的连接,目前只支持写入到OBS连接。 - 脏数据目录 脏数据写入的OBS目录。 - 脏数据阈值 是否写入脏数据为是时显示该参数。 用户根据实际设置脏数据阈值。 说明: 脏数据阈值仅针对每个并发生效。比如阈值为100,并发为3,则该作业可容忍的脏数据条数最多为300。 输入-1表示不限制脏数据条数。 100 添加自定义属性 支持通过自定义属性修改部分作业参数及开启部分高级功能,详情可参见任务性能调优章节。 - 提交并运行任务。 作业配置完毕后,单击作业开发页面左上角“提交”,完成作业提交。 图5 提交作业 提交成功后,单击作业开发页面“启动”按钮,在弹出的启动配置对话框按照实际情况配置同步位点参数,单击“确定”启动作业。 图6 启动配置 表3 启动配置参数 参数 说明 同步模式 数据源通用同步模式: 增量同步:从指定时间位点开始同步增量数据。 全量+增量:先同步全量数据,随后实时同步增量数据。 Kafka数据源专用同步模式: 最早:从Kafka Topic最早偏移量开始消费数据。 最新:从Kafka Topic最新偏移量开始消费数据。 起止时间:根据时间获取Kafka Topic对应的偏移量,并从该偏移量开始消费数据。 时间 同步模式选择增量同步和起止时间时需要设置该参数,指示增量同步起始的时间位点。 说明: 配置的位点时间早于数据源增量日志最早时间点时,默认会以日志最新时间点开始消费。 配置的位点时间早于Kafka消息最早偏移量时,默认会从最早偏移量开始消费。 监控作业。 通过单击作业开发页面导航栏的“前往监控”按钮,可前往作业监控页面查看运行情况、监控日志等信息,并配置对应的告警规则,详情请参见实时集成任务运维。 图7 前往监控
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全