检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
间以前的数据。 这2个参数同时配置后,CDM就只导出前一天内的数据,再将该作业配置为每天0点执行一次,就可以增量同步每天新生成的数据。 父主题: 增量迁移原理介绍
仅周期调度才显示。周期调度配置的具体运行时间。 起始日期 仅周期调度才显示。周期调度的生效时间。 后N个实例 作业运行调度的实例个数。 单次调度场景默认为1。 事件驱动调度场景默认为1。 周期调度场景 当实例数大于10时,系统最多展示10个日期实例,系统会自动提示“当前参数预览最多支持查看10个实例”。
功。 alarm_notify_topic String 通知主题名。 schedule_type String 调度类型,ONCE表示单次调度,PERIODIC表示周期性调度。 schedule_start_date String 调度开始日期。 schedule_end_date
单击“下一步”进行任务配置,其中抽取并发数默认为3,适当增加可以增加迁移速率,本例中设置为8,其它参数保持默认即可。 重复上述步骤创建其它迁移目录的作业,参数配置都相同。2个CDM集群的作业个数平均分配,并发执行。 作业执行完成后,可在作业的“历史记录”中查看详细的数据统计。 父主题: 车联网大数据零丢失搬迁入湖
数据对账对数据迁移流程中的数据一致性至关重要,数据对账的能力是检验数据迁移或数据加工前后是否一致的关键指标。本文以DWS数据迁移到MRS Hive分区表为例,介绍如何通过DataArts Studio中的数据质量模块实现数据迁移前后的一致性校验。 通过数据开发使用参数传递灵活调度CDM作业
由公司数据Owner定期发布公司数据质量报告,牵引各业务领域持续改进数据质量。 图1 华为数据治理愿景与目标 图2 华为数据治理能力 父主题: 华为数据治理案例
质量监控,并输出对账结果。 运维管理 运维管理用于查看规则运行状态,处理运维问题。 质量报告 系统根据作业的结果,会自动生成质量报告。 父主题: 数据质量监控
数据集范围为全量模式时,仅支持单次调度。 数据集范围为增量模式时,支持单次调度和周期调度。 当选择为周期调度时,参数配置参考表3。 表3 配置周期调度参数 参数名 说明 *调度日期 调度任务的生效时间段。 *调度周期 选择调度任务的执行周期,并配置相关参数。 分:选择调度开始时间和结束时间,配置间隔的分钟时长。 小时
select slot_name from pg_replication_slots where slot_name = 'slot_name'; 父主题: 常见问题
只要作业启动成功即执行成功。后续每次周期运行时检查任务是否处于运行状态,如果处于运行状态,则认为节点执行成功。 注意,此处不会为Flink增加对应的batch或streaming模式参数,您还需要为Flink作业指定对应参数。 MRS集群名 是 选择MRS集群。 如需新建集群,请参考以下方法:
安全管理员的权限当且仅当在数据安全组件生效,对于周边组件和其他服务,此身份无效。 图1 配置安全管理员 查看数据概况 在总览页,用户可以根据日期,根据不同数据源类型。例如查看数据仓库服务(DWS)、数据湖探索(DLI)或MapReduce服务(MRS Hive)类型的下所包含的数据
事务模式迁移 支持当CDM作业执行失败时,将数据回滚到作业开始之前的状态,自动清理目的表中的数据。 字段转换 支持去隐私、字符串操作、日期操作等常用字段的数据转换功能。 文件加密 在迁移文件到文件系统时,CDM支持对写入云端的文件进行加密。 MD5校验一致性 支持使用MD5校
首先在数据目录组件完成元数据采集任务,当数据开发作业满足自动血缘解析要求或已手动配置血缘,然后成功完成作业调度后,则可以在数据目录模块可视化查看数据血缘关系。 父主题: 节点数据血缘
组装成一个tuple 计数1 pairWords = words.map(lambda word:(word,1),True) #使用3个分区 reduceByKey进行汇总 result = pairWords.reduceByKey(lambda v1,v2:v1+v2)
连接属性 可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。 sslmode=require 引用符号 可选参数,连接引用表名或列名时的分隔符号,参考对应数据库的产品文档进行配置。 ' 父主题: 配置连接参数
CloudTable/MRS OpenTSDB: sys.datasource.opentsdb DWS: sys.datasource.dws RDS MySQL: sys.datasource.rds RDS PostGre: sys.datasource.rds DCS: sys.datasource
当前项目可见 当前租户可见 访问日志 勾选,则此API的查询结果将会产生记录并被保留7天,可以在“运营管理 > 访问日志”处通过选择“请求日期”的方式查看对应日期的日志。 最低保留期限 API发布状态预留的最低期限,单位为小时,0表示不设限制。 如果需要停用/下线/解除授权,则停用/下线/
data”,则在创建作业时,参数配置如下: 过滤类型:选择“通配符”。 文件过滤器:配置为“*${dateformat(yyyyMMdd,-1,DAY)}*”(这是CDM支持的日期宏变量格式,详见时间宏变量使用解析)。 图1 文件过滤 配置作业定时自动执行,“重复周期”为1天。 这样每天就可以把昨天生成的文件都导入到目的端目录,实现增量同步。
不支持变更自动同步。即数据架构处的主题或主题层级变更并发布后,需要手动再次单击才能同步到主题目录。 特殊的,数据架构处的主题或主题层级删除后,手动同步后目录不会删除,仅去除主题目录属性,作为普通目录进行展示。 完成同步后,若有同步失败的主题,系统会自动弹出同步结果明细,可查看同步失败的主题名称。 图2
data”,则在创建作业时,参数配置如下: 过滤类型:选择“通配符”。 文件过滤器:配置为“*${dateformat(yyyyMMdd,-1,DAY)}*”(这是CDM支持的日期宏变量格式,详见时间宏变量使用解析)。 图1 文件过滤 配置作业定时自动执行,“重复周期”为1天。 这样每天就可以把昨天生成的文件都导入到目的端目录,实现增量同步。