检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开始时间(>=) “偏移量参数”选择为“时间范围”时配置。拉取数据的开始时间,包含设置时间点的数据。 2020-12-20 12:00:00 结束时间(<) “偏移量参数”选择为“时间范围”时配置。拉取数据的结束时间,不包含设置时间点的数据。 2020-12-20 20:00:00 字段分隔符
举例:A依赖B,A为天作业,依赖B小时作业,A依赖B在前一天最后一个周期的小时作业实例执行。 天依赖天 规则:按自然天的上一个周期实例进行依赖。 在同自然天内A依赖B ,无论A、B设置在什么时间点执行,A永远依赖B的前一周期实例执行。 天区间为[00:00:00,23:59:59] 举例:A在2:0
左侧导航栏,包括数据质量规则的存储目录。 用户可以根据实际需要对规则进行分目录存放,每级目录旁边的数字代表属于该级目录的规则实例的个数。 2 规则实例列表 展示实例名称、类型、运行状态、运行结果等信息。 3 管理区域 可以对所选实例进行导出、删除、停止运行的操作。 4 搜索区域 可以选择性的
TRUNCATE方式:清空DLI表分区。 INSERT_OVERWRITE方式:使用分区覆盖的方式写入数据。 INSERT_OVERWRITE 空字符串作为null 如果设置为true,空字符串将作为null。 否 自动建表模式 选择建表模式:一键建表,作业配置过程中一键建表,表生成后继续配置作业。 一键建表 分区
创建DWS数据连接。在DataArts Studio管理中心模块,单击创建数据连接,数据连接类型选择“数据仓库服务(DWS)”,输入数据连接名称,设置其他参数,如下图所示,单击“测试”,提示连接成功,单击“确定”。 创建对账作业。 在DataArts Studio数据质量模块,单击左侧导航菜单“对账作业”。
次提交行数。 100 单击“保存”回到连接管理界面,完成MySQL连接器的配置。 如果保存时出错,一般是由于MySQL数据库的安全设置问题,需要设置允许CDM集群的EIP访问MySQL数据库。 父主题: 使用教程
授权用户使用DataArts Studio 授权用户使用DataArts Studio 管理中心 根据自身的业务特点和源数据类型,进行数据存储与分析系统的选型,选取合适的云服务用于存储源数据并进行数据查询和分析。然后,创建该云服务相应的数据连接。 新建数据连接 创建DataArts Studio数据连接
新建数据迁移的源连接、目的连接 新建表/文件迁移作业 步骤4:元数据采集 为了在DataArts Studio平台中对迁移到云上的原始数据层进行管理和监控,必须先对其元数据进行采集并监控。 元数据采集 采集并监控元数据 步骤5:数据架构设计 数据架构以关系建模、维度建模理论支撑实现规范化、可视化、
DWS的写入模式,可在目的端配置中设置,实时处理集成作业推荐使用COPY MODE。 UPSERT:为批量更新入库模式。 COPY:为DWS专有的高性能批量入库模式。 批写最大数据量 int 50000 DWS单次写入的最大条数,可在目的端配置中设置。 当缓存的数据达到“批写最大数
获取任务执行结果列表。 300 40 获取实例结果 获取实例结果。 300 40 数据质量运维管理操作处理&记录 该接口用于数据质量监控实例的问题处理,在控制台上可通过“更多>处理&记录”进入问题处理界面。 300 40 任务实例接口 表7 任务实例接口 API 说明 API流量限制(次/10s)
获取方法请参见查询作业实例列表 请求参数 表2 请求Header参数 参数名 是否必选 参数类型 说明 workspace 否 String 工作空间id。 如果不设置该参数,默认查询default工作空间下的数据。 如果需要查询其他工作空间的数据,需要带上该消息头。 响应参数 无 请求示例 POST /
M会将CSV文件的前N行数据作为标题行,不写入目的端的表。 否 编码类型 文件编码类型,例如:“UTF-8”或“GBK”。只有文本文件可以设置编码类型,当“文件格式”选择为“二进制格式”时,该参数值无效。 GBK 启动作业标识文件 选择是否开启作业标识文件的功能。当源端路径下存在
数。 请求参数 表2 请求Header参数 参数名 是否必选 参数类型 说明 workspace 否 String 工作空间id。 如果不设置该参数,默认查询default工作空间下的数据。 如果需要查询其他工作空间的数据,需要带上该消息头。 响应参数 无 请求示例 POST /
补数据实例名称。 请求参数 表2 请求Header参数 参数名 是否必选 参数类型 说明 workspace 否 String 工作空间id。 如果不设置该参数,默认查询default工作空间下的数据。 如果需要查询其他工作空间的数据,需要带上该消息头。 X-Auth-Token 是 String
Studio实例中的CDM集群)与MRS集群处于不同区域的情况下,需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP,MRS集群可以访问公网且防火墙规则已开放连接端口。 DataArts Studio实例(指DataArts Studio实例中的CDM集群)与MRS集群同区域情况下,同
管理工作空间 创建并管理工作空间 设置工作空间配额 (可选)修改作业日志存储路径
topic列表,可以为多个topic,以“,”作为分隔符。 fromJobConfig.kafkaConsumerStrategy 是 枚举 从Kafka拉取数据时的初始偏移量设置: LATEST:最大偏移量,即最新的数据。 EARLIEST:最小偏移量,即最老的数据。 fromJobConfig.isPermanency
迁移。 否 键分隔符 用来分隔关系型数据库的表和列名。 _ 值分隔符 以STRING方式存储时,列之间的分隔符。 ; key值有效期 用于设置统一的生存时间,单位:秒。 300 父主题: 配置CDM作业目的端参数
fromJobConfig.streamName 是 String DIS的通道名。 fromJobConfig.disConsumerStrategy 是 枚举 设置从DIS拉取数据时的初始偏移量: LATEST:最大偏移量,即最新的数据。 FROM_LAST_STOP:从上次停止处继续拉取。 EARLIEST:最小偏移量,即最早的数据。
Studio平台提供自动化、智能化的工具帮助用户高效完成数据治理工作。 数据治理方法论还有完全版本,详细描述了流程落地和功能落地内容。欢迎您通过《华为数据之道》图书进行深入了解,或进行服务咨询。 图1 方法论流程落地 图2 方法论功能落地