-
新建作业 - 数据治理中心 DataArts Studio
批处理作业:按调度计划定期处理批量数据,主要用于实时性要求低的场景。批作业是由一个或多个节点组成的流水线,以流水线作为一个整体被调度。被调度触发后,任务执行一段时间必须结束,即任务不能无限时间持续运行。 批处理作业可以配置作业级别的调度任务,即以作业为一整体进行调度,具体请参见配置作业调度任务(批处理作业)。 实
-
IF条件判断教程 - 数据治理中心 DataArts Studio
所示。可以看到运行结果是符合预期的,当前HIVE SQL执行的结果是4,所以>5和=5的分支被跳过,执行<5这个分支成功。 图10 子作业运行结果 多IF条件下当前节点的执行策略 如果当前节点的执行依赖多个IF条件的节点,执行的策略包含逻辑或和逻辑与两种。 当执行策略配置为逻辑或
-
批作业监控 - 数据治理中心 DataArts Studio
果依赖设置的继续执行,则下游作业继续执行;如果依赖设置的取消,则下游作业取消执行。 尚未生成的作业实例被冻结后,可以在批作业监控的作业实例中查看,也可以在实例监控中通过运行状态进行筛选去查看被冻结状态的实例。 解冻:作业实例还未开始调度,且实例已被冻结,才能够进行解冻。 对作业实
-
如何降低CDM使用成本? - 数据治理中心 DataArts Studio
IP),记录下CDM集群所在的VPC和子网。 创建NAT网关,注意选择和CDM集群相同的VPC、子网。 创建完NAT网关后,回到NAT网关控制台列表,单击创建好的网关名称,然后选择“添加SNAT规则”。 图1 添加SNAT规则 选择子网和弹性IP,如果没有弹性IP,需要先申请一个。
-
开发SQL脚本 - 数据治理中心 DataArts Studio
查看脚本的执行历史、执行结果。Flink SQL脚本不涉及,请跳过该步骤。 执行SQL结果最多展示1000条,仅DLI SQL支持最多10000条。如需查看更多执行结果,请参考下载或转储脚本执行结果通过下载或转储获取。 对于执行结果支持如下操作: 重命名:可通过双击执行结果页签的
-
实时作业监控 - 数据治理中心 DataArts Studio
实时作业监控”页面查看实时处理作业的运行状态、开始执行时间、结束执行时间等信息,以及进行如表1所示的操作。 图1 实时作业监控 表1 实时作业监控支持的操作项 序号 支持的操作项 说明 1 根据“作业名称”、“责任人”、“CDM作业”或“节点类型”筛选作业 - 2 根据“运行状态”或“作业标签”筛选作业
-
文件格式介绍 - 数据治理中心 DataArts Studio
DM会以同一模式从该数组中提取数据。多层嵌套的JSON节点以字符“.”分割。 从JSON文件复制数据 示例一 从行分隔/串连的多个对象中提取数据。JSON文件包含了多个JSON对象,例如: { "took": 190, "timed_out": false,
-
执行SQL语句失败,系统提示“Failed to create ThriftService instance, please check the cluster has available resources and check YARN or Spark - 数据治理中心 DataArts Studio
执行SQL语句失败,系统提示“Failed to create ThriftService instance, please check the cluster has available resources and check YARN or Spark driver's logs
-
定义识别规则分组 - 数据治理中心 DataArts Studio
定义敏感数据识别规则组,可以将多个零散的规则组合成为一个有业务逻辑的规则组,该操作是用户后续进行敏感数据发现任务操作的前提 。 前提条件 识别规则创建完成,请参考定义识别规则。 约束与限制 敏感数据识别过程中,当某个字段同时匹配到识别规则组中的多个识别规则时,此字段密级取多个识别规则的最高密级,字段分类允许有多个。
-
IF条件判断教程 - 数据治理中心 DataArts Studio
所示。可以看到运行结果是符合预期的,当前HIVE SQL执行的结果是4,所以>5和=5的分支被跳过,执行<5这个分支成功。 图10 子作业运行结果 多IF条件下当前节点的执行策略 如果当前节点的执行依赖多个IF条件的节点,执行的策略包含逻辑或和逻辑与两种。 当执行策略配置为逻辑或
-
解决方案 - 数据治理中心 DataArts Studio
解决方案 背景信息 解决方案定位于为用户提供便捷的、系统的方式管理作业,更好地实现业务需求和目标。每个解决方案可以包含一个或多个业务相关的作业,一个作业可以被多个解决方案复用。 数据开发模块目前支持处理以下几种方式的解决方案。 新建解决方案 编辑解决方案 导出解决方案 导入解决方案 升级解决方案
-
输出处理算子 - 数据治理中心 DataArts Studio
输出处理算子 输出处理算子负责对API工作流的执行结果进行错误码映射、结果集映射和格式转换,以确定最终返回的数据格式。 表1 输出处理算子 参数 是否必选 说明 错误码映射 否 针对数据服务返回的错误码,支持映射为自定义信息。 例如,将“DLM.0”错误码映射为“OK”。 结果集映射
-
实例监控 - 数据治理中心 DataArts Studio
实例监控”。 当前支持批量停止、重跑、继续执行、强制成功多个实例,使用说明参见表1。 其中,批量重跑多个实例时,重跑的顺序如下: 如果作业不依赖上一调度周期,多个实例并行重跑。 如果作业自依赖,多个实例串行重跑,以上一调度周期中实例执行完成的先后顺序为准,先执行完成的先重跑。 在实例列表中,提供如表1所示的操作。
-
SDK调用常见错误码/错误信息 - 数据治理中心 DataArts Studio
logs. CDM上的代理拒绝服务 SQL执行时间过长 CDM资源不足了 1. 确认SQL执行时长,如果时间过长,建议优化SQL(默认分页的话则建议使用自定义分页)。 2. 如果SQL执行时间较短,当前没有其他服务正在作业的话,重启CDM。 DAYU.1088 Failed to
-
字段映射界面无法显示所有列怎么处理? - 数据治理中心 DataArts Studio
g:UPLOAD_PEOPLE g:ID g:INFOMATION_ID g:TITLE g:COORDINATE_X g:COORDINATE_Y g:COORDINATE_Z g:CONTENT g:IMAGES g:STATE 在CDM的作业管理界面,找到HBase导出数据
-
配置MRS Hetu数据连接 - 数据治理中心 DataArts Studio
alternate-header-name”,值为“Presto”,参数文件为“coordinator.config.properties”和“worker.config.properties”。 如果选择集群后连接失败,请检查MRS集群与作为Agent的CDM实例是否网络互通。网络互通需满足如下条件:
-
查询作业详情 - 数据治理中心 DataArts Studio
String 节点类型: HiveSQL: 执行Hive SQL脚本 SparkSQL: 执行Spark SQL脚本 DWSSQL:执行DWS SQL脚本 DLISQL:执行DLI SQL脚本 Shell :执行Shell SQL脚本 CDMJob:执行CDM作业 DISTransferTask:创建DIS转储任务
-
新建时间限定 - 数据治理中心 DataArts Studio
图4 时间限定页面 您可以根据实际需要选择如下操作。 当需要... 则... 新建 执行新建时间限定并发布。 编辑 执行3。 发布 执行4。 发布历史 执行5。 下线 执行6。 删除 执行7。 编辑 在需要编辑的时间限定右侧,单击“编辑”,进入编辑时间限定页面。 根据实际需要编辑相关内容。
-
场景介绍 - 数据治理中心 DataArts Studio
跨越多个交换机设备。 CDM通过DES(数据快递服务)迁移1个月前的历史数据,迁移路径如下: CDH → DES → CDM(华为云) → OBS → CDM(华为云) → MRS DES适用场景:数据量大,用户私有云与华为云无专线打通,用户私有云网络到公网带宽有限。 优点:传输可靠性高,受专线以及网络质量影响较小。
-
指定文件名迁移 - 数据治理中心 DataArts Studio
从FTP/SFTP/OBS导出文件时,CDM支持指定文件名迁移,用户可以单次迁移多个指定的文件(最多50个),导出的多个文件只能写到目的端的同一个目录。 在创建表/文件迁移作业时,如果源端数据源为FTP/SFTP/OBS,CDM源端的作业参数“源目录或文件”支持输入多个文件名(最多50个),文件名之间默认使用“|”