检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
采集元数据 创建元数据连接 创建并运行元数据同步任务 创建并运行数据湖元数据同步任务 查看元数据 父主题: 大数据血缘
指定日期校验:仅适用于分区为年月日格式的分区表,支持周期性指定一个或多个连续日期分区进行校验。分区格式不为年月日的表不会进行校验。 指定时间校验:用户可以选择一个时间段,校验该时间段内的数据。只能选择当前时间之前的时间段进行校验。 支持的源端、目的端组件 源端组件 目的端组件 Hive Hbase
使用须知 约束与限制 MaxCompute不支持datetime类型数据格式,在迁移之前,需要将所有datetime类型的字段转换为字符串(STRING)格式。 MaxCompute不支持varchar和char类型字段,在迁移之前,需要将所有varchar和char类型的字段转换为字符串(STRING)格式。
MgC自定义策略 如果系统预置的MgC权限,不满足您的授权要求,可以创建自定义策略。 目前华为云支持以下两种方式创建自定义策略: 可视化视图创建自定义策略:无需了解策略语法,按可视化视图导航栏选择云服务、操作、资源、条件等策略内容,可自动生成策略。 JSON视图创建自定义策略:可
创建目的端连接 创建执行机连接 创建目的端云服务连接 创建目的端组件连接 父主题: 大数据校验
血缘采集概述 通过血缘采集,可以建立起数据元素之间的关系和依赖关系,从而形成一个清晰的数据血缘图。 目前支持血缘采集的文件类型以及采集须知,参见下表。 文件类型 采集须知 血缘模板 需要下载血缘模板,并填写相应数据。 父主题: 血缘采集
列的“运行任务”,即可触发一次任务执行。每执行一次任务,会生成一条任务实例。 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。
ile\app-discovery-rabbitmq-xxx.csv。 password 是 填写登录用户名对应的密码。 username 是 填写RabbitMQ管理插件登录用户名。 server_port 是 填写RabbitMQ服务端口。例如:5672 plugin_port
列的“运行任务”,即可触发一次任务执行。每执行一次任务,会生成一条任务实例。 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。
添加阶段/步骤 您可以在工作流标准模板的迁移阶段/步骤,添加卡点,对迁移阶段/步骤进行控制。 只有迁移阶段/步骤状态为等待中/暂停,才可以选择该阶段/步骤进行添加。迁移阶段/步骤处于运行中/完成状态时,无法添加。 如果上一阶段/步骤处于运行中/暂停/完成状态,该阶段/步骤只能选择添加后置阶段/步骤。
auth参数值为“3”时,填写SSL ca_file文件绝对路径。 password 否 填写登录用户名对应的密码。 username 否 auth参数值为“2”或“3”时,填写Kafka登录用户名。 auth 是 Kafka认证方式。 0表示无认证 1表示PLAINTEXT认证 2表示SASL_PLAINTEXT认证
列的“运行任务”,即可触发一次任务执行。每执行一次任务,会生成一条任务实例。 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。
自定义参数说明 在创建数据湖探索 DLI校验任务时,支持的自定义参数及说明参见表1。 表1 DLI校验任务支持的自定义参数说明 参数名称 默认值 描述 mgc.mc2dli.table.partition.enable true DLI表分区为空或者分区不存在时需要通过查询DLI的元数据去判断分区存不存在。
列的“运行任务”,即可触发一次任务执行。每执行一次任务,会生成一条任务实例。 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。
列的“运行任务”,即可触发一次任务执行。每执行一次任务,会生成一条任务实例。 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。
列的“运行任务”,即可触发一次任务执行。每执行一次任务,会生成一条任务实例。 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。
制,以避免因超出配额而导致创建失败。 日创建上限:在同一项目下,每天允许创建的迁移工作流数量上限为50个。 运行中工作流资源总量限制:同一用户同时进行迁移的主机数量上限为1000台,超出此数量的主机会在工作流第一步暂停并处于等待状态,直至有资源释放或主机完成迁移,等待中的主机将按
自定义参数说明 在目的端配置中,支持配置的自定义参数及说明请参见表1和conf参数说明。 表1 支持的自定义参数说明 参数名称 取值范围 说明 是否必填 spark.dli.metaAccess.enable - 填写true。 是 spark.dli.job.agency.name
设置每次采集时间间隔,单位为s(秒),1≤取值范围≤60。 password 是 填写登录用户名对应密码。 user 是 填写拥有ClusterMonitor、ReadAnyDatabase权限的登录用户名。 endpoint 是 填写MongoDB服务的连接端点,例如:127.0.0
LOG_DIR="/var/log/rollback_hosts" 描述:日志目录路径。 参数默认值:/var/log/rollback_hosts 修改建议:修改为当前用户具有写入权限的目录路径。 修改示例:LOG_DIR="/home/username/rollback_hosts_logs" CSV_FILE="target_servers