-
数据治理中心 DataArts Studio - 数据治理中心 DataArts Studio
通过数据开发使用参数传递灵活调度CDM作业 通过数据开发实现数据增量迁移 通过CDM节点批量创建分表迁移作业 06 SDK&API DataArts Studio软件开发工具包(SDK)是对DataArts Studio提供的REST API进行的Java,Python等封装,以简化用户的开发工作。 API文档
-
基本概念 - 数据治理中心 DataArts Studio
即数据的来源,本质是讲存储或处理数据的媒介,比如:关系型数据库、数据仓库、数据湖等。每一种数据源不同,其数据的存储、传输、处理和应用的模式、场景、技术和工具也不相同。 源数据 源数据强调数据状态是“创建”之后的“原始状态”,也就是没有被加工处理的数据。在数据管理的过程中,源数据一般是指直接来自
-
数据集成API错误码 - 数据治理中心 DataArts Studio
可能是由于网络不通、安全组或防火墙规则未放行、FTP主机名无法解析、FTP用户名密码错误等原因。若排除上述原因后仍无法解决,请联系客服或技术支持人员协助解决。 Cdm.0700 400 无法连接SFTP服务器。 无法连接SFTP服务器。 可能是由于网络不通、安全组或防火墙规则未放行、SFT
-
案例:搭建实时报警平台 - 数据治理中心 DataArts Studio
SQL作业 编辑1中创建的Flink SQL作业,在SQL编辑器中输入语句。 图8 编辑Flink SQL作业 SQL语句实现的功能: DIS通过工具上传实时数据至DLI,使用1中创建的“dis-alarm-input”通道。 判断告警级别,当告警级别达到指定值时向用户发送短信通知。 D
-
步骤1:流程设计 - 数据治理中心 DataArts Studio
迁移到MRS Hive3.1 - 数据的迁移周期:天、小时、分钟还是实时迁移 天 - 数据源与目的数据源之间的网络带宽 100MB - 数据源和集成工具之间的网络连通性描述 本示例不涉及 - 数据库类迁移,调研表的个数,最大表的规模 本示例不涉及,本示例需要从OBS文件迁移到数据库 了解数
-
步骤2:准备工作 - 数据治理中心 DataArts Studio
Studio实例中的CDM集群)与MRS集群处于不同区域的情况下,需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP,MRS集群可以访问公网且防火墙规则已开放连接端口。 DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群同区域情况下,同
-
基础操作符 - 数据治理中心 DataArts Studio
eq 测试是否相等 != 或 ne 测试是否不等 < 或 lt 测试是否小于 > 或 gt 测试是否大于 <= 或 le 测试是否小于等于 >= 或 ge 测试是否大于等于 && 或 and 测试逻辑与 || 或 or 测试逻辑或 ! 或 not 测试取反 empty 测试是否空值
-
约束与限制 - 数据治理中心 DataArts Studio
MySQL数据库),需要用户的数据源可支持Internet公网访问,并为CDM集群实例绑定弹性IP。这种方式下安全实践是:本地数据源通过防火墙或安全策略仅允许CDM弹性IP访问。 仅支持常用的数据类型,字符串、数字、日期,对象类型有限支持,如果对象过大会出现无法迁移的问题。 仅支持数据库字符集为GBK和UTF-8。
-
数据治理中心 DataArts Studio - 数据治理中心 DataArts Studio
业务指标监控是对业务指标数据进行质量管理的有效工具,可以灵活的创建业务指标、业务规则和业务场景,实时、周期性进行调度,满足业务的数据质量监控需求。 业务指标监控 数据质量监控 数据质量监控DQC(Data Quality Control)模块是对数据库里的数据质量进行质量管理的工具。您可从完整性、有效性
-
脱敏策略 - 数据治理中心 DataArts Studio
配置完成后单击“确定”。 已被绑定脱敏算法的分类规则不支持被重复绑定。 图1 新建脱敏 适配脱敏算法后,支持用户在线进行测试。输入测试数据,单击“测试”,在测试结果文本框中进行验证。 开启或关闭状态,只有启用状态下的脱敏策略才可生效。 查看数据脱敏效果 在DataArts Stu
-
查询数据开发细粒度连接列表 - 数据治理中心 DataArts Studio
运行、作业测试运行,"1"表示调度态细粒度认证,支持数据开发细粒度脚本运行、作业测试运行、作业执行调度。 最小长度:1 最大长度:1 fgac_conn_status String 数据源连通性测试状态: UNKNOWN - 连通性未测试 TESTING - 连通性测试中 SUCCESS
-
开发Pipeline作业 - 数据治理中心 DataArts Studio
息,但不包含节点间的连接关系。 测试运行 测试运行该节点。 说明: 用户可以查看该作业节点的测试运行日志,单击“查看日志”可以进入查看日志界面查看日志的详细信息记录。 从当前节点测试运行 仅在批作业下显示该选项。选择“从当前节点测试运行”,则测试运行当前节点以及后续节点。 添加/删除连线
-
配置HDFS连接 - 数据治理中心 DataArts Studio
Studio实例中的CDM集群)与MRS集群处于不同区域的情况下,需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP,MRS集群可以访问公网且防火墙规则已开放连接端口。 DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群同区域情况下,同
-
购买专享版集群 - 数据治理中心 DataArts Studio
弹性公网IP 专享版实例的API如果要允许外部调用,则需要购买一个弹性公网IP,并在购买时绑定给实例,作为实例的公网入口。 安全组 安全组类似防火墙,控制谁能访问实例的指定端口,以及控制实例的通信数据流向指定的目的地址。安全组入方向规则建议按需开放地址与端口,这样可以最大程度保护实例的网络安全。
-
开发一个MRS Spark Python作业 - 数据治理中心 DataArts Studio
obs://obs-tongji/python/out为输出参数文件夹的路径,并且会在OBS桶中自动创建该目录(如已存在out目录,会报错)。 单击“测试运行”,执行该脚本作业。 待测试完成,执行“提交”。 在“作业监控”界面,查看作业执行结果。 图4 查看作业执行结果 作业日志中显示已运行成功 图5 作业运行日志
-
MySQL数据迁移到MRS Hive分区表 - 数据治理中心 DataArts Studio
Hive的分区使用HDFS的子目录功能实现,每一个子目录包含了分区对应的列名和每一列的值。当分区很多时,会有很多HDFS子目录,如果不依赖工具,将外部数据加载到Hive表各分区不是一件容易的事情。云数据迁移服务(CDM)可以轻松将外部数据源(关系数据库、对象存储服务、文件系统服务等)加载到Hive分区表。
-
配置HBase连接 - 数据治理中心 DataArts Studio
Studio实例中的CDM集群)与MRS集群处于不同区域的情况下,需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP,MRS集群可以访问公网且防火墙规则已开放连接端口。 DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群同区域情况下,同
-
CDM迁移近一个月的数据 - 数据治理中心 DataArts Studio
hdfs://NameNode IP:端口”,若CDH没有启动Kerberos认证则“认证类型”选择“SIMPLE”。 单击“测试”,如果右上角显示“测试成功”,表示连接成功,单击“保存”。 创建MRS HDFS连接: 在作业管理界面,选择“连接管理 > 新建连接”,进入连接器类型的选择界面,选择“MRS
-
数据连接管理 - 数据治理中心 DataArts Studio
数据连接管理 查询数据连接列表 创建数据连接 测试创建数据连接 查询单个数据连接信息 更新数据连接信息 删除数据连接 父主题: 管理中心API
-
权限应用接口 - 数据治理中心 DataArts Studio
权限应用接口 查询数据开发细粒度连接列表 批量更新数据开发连接细粒度认证状态 测试数据开发连接细粒度连通性 父主题: 数据安全API