-
作业执行过程中,由于源端连接闪断、超时或者源端主动终止了连接导致作业执行失败怎么处理? - 云数据迁移 CDM
作业执行过程中,由于源端连接闪断、超时或者源端主动终止了连接导致作业执行失败怎么处理? 问题定位 日志中出现源端的read timeout报错,或者terminate by xxx之类的报错。 规避方案 如果源端网络不稳定,可以使用分片重试能力多次执行作业,可能需要调整作业配置。
-
如何将云下内网或第三方云上的私网与CDM连通? - 云数据迁移 CDM
数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 在本地数据中心和云服务VPC之间建立VPN通道。 通过NAT(网络地址转换,Network Address Translation)或端口转发,以代理的方式访问。 这里重点介绍如何通过端口转发工具来实现访问内部数据,流程如下:
-
步骤3:创建并执行作业 - 云数据迁移 CDM
分组导出作业等操作。 是否定时执行:如果需要配置作业定时自动执行可开启。这里保持默认值“否”。 抽取并发数:设置同时执行的抽取任务数,适当的抽取并发数可以提升迁移效率,配置原则请参见性能调优。这里保持默认值“1”。 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清
-
如何降低CDM使用成本? - 云数据迁移 CDM
IP),记录下CDM集群所在的VPC和子网。 创建NAT网关,注意选择和CDM集群相同的VPC、子网。 创建完NAT网关后,回到NAT网关控制台列表,单击创建好的网关名称,然后选择“添加SNAT规则”。 图1 添加SNAT规则 选择子网和弹性IP,如果没有弹性IP,需要先申请一个。
-
作业执行卡Running,读取行数写入行数相等且不再增加怎么解决? - 云数据迁移 CDM
作业执行卡Running,读取行数写入行数相等且不再增加怎么解决? 原因分析 CDM写Hudi为两段式,先写到hive临时表,然后再执行spark sql写到Hudi,写入行数统计的是写hive临时表的行数,当行数不再增长时,说明源端数据已经读完写到Hive表中,此时作业正在执行Spark
-
步骤4:查看作业运行结果 - 云数据迁移 CDM
其中“Pending”表示正在等待系统调度该作业,“Booting”表示正在分析待迁移的数据。 单击作业后面的“历史记录”,可查看作业的写入行数、读取行数、写入字节或写入文件数。 图2 查看历史记录 在历史记录界面,再单击“日志”可查看作业执行的日志信息。 也可以在作业列表界面,选择“更多
-
迁移作业原理 - 云数据迁移 CDM
大带宽为36/40 Gbps。 通过公网互通时,网络带宽受到公网带宽的限制。CDM侧公网带宽规格受限于CDM集群所绑定的弹性公网IP,数据源侧受限于其所访问的公网带宽规格。 通过VPN、NAT或专线互通时,网络带宽受到VPN、NAT或专线带宽的限制。 目的端写入性能 取决于目的端数据源的性能。
-
查询作业执行历史 - 云数据迁移 CDM
查询作业执行历史 功能介绍 查询作业执行历史接口。 调用方法 请参见如何调用API。 URI GET /v1.1/{project_id}/clusters/{cluster_id}/cdm/submissions 表1 路径参数 参数 是否必选 参数类型 描述 project_id
-
随机集群创建作业并执行 - 云数据迁移 CDM
execute_create_date 否 Long 最近一次执行任务创建时间,单位:毫秒。由系统生成,用户无需填写。 status 否 String 作业最后的执行状态: BOOTING:启动中。 RUNNING:运行中。 SUCCEEDED:成功。 FAILED:失败。 NEW:未被执行。 表5 ConfigValues
-
执行作业后(非失败重试),作业执行卡Running,但是数据写入行数一直显示为0如何处理? - 云数据迁移 CDM
执行作业后(非失败重试),作业执行卡Running,但是数据写入行数一直显示为0如何处理? 问题排查 打开日志,最后一行日志如下所示,则说明此时集群并发资源消耗殆尽,或者集群内存使用达到阈值,新提交的作业需要排队等待。 submit task attempt_local18473
-
管理单个作业 - 云数据迁移 CDM
cceeded,stopped。 其中“Pending”表示正在等待系统调度该作业,“Booting”表示正在分析待迁移的数据。 查看历史记录 查看作业的历史执行记录、读取和写入的统计数据,在历史记录界面还可查看作业执行的日志信息。 查看作业日志 在历史记录界面可查看作业所有的日志。
-
执行Spark SQL写入Hudi失败怎么办? - 云数据迁移 CDM
of memory) 。 可以尝试的规避方法: 在作业管理界面选择“更多-失败重试”,尝试重新执行Spark SQL。 通过DataArts Studio执行Spark SQL,设置执行参数或者调整SQL。 调整Spark切片大小: set spark.sql.files.max
-
获取集群列表为空/没有权限访问/操作时报当前策略不允许执行? - 云数据迁移 CDM
获取集群列表为空/没有权限访问/操作时报当前策略不允许执行? 问题描述 在使用CDM时,可能遇到如下权限相关的问题: 跳转到CDM首页,获取到的集群列表为空。 提示没有权限访问,如图1所示。 执行启动作业/重启集群等操作时,报错当前策略不允许执行,如图2所示。 图1 没有权限访问 图2 不允许创建连接
-
通过json方式导入的作业,sql server迁移到hive,执行作业报错 - 云数据迁移 CDM
server迁移到hive,执行作业报错 问题描述 客户通过json的方式导入作业,从sql server迁移数据到hive,执行作业报:操作数数据类型bit 对min 运算无效。 图1 报错信息 故障分析 客户作业中配置的并发数大于1,CDM会选择分区列进行分区迁移,默认情况:取主
-
作业任务参数说明 - 云数据迁移 CDM
月的15号执行该定时任务。并且该参数支持输入多个,以英文的逗号“,”分隔开。 例如上述场景中“runAt”输入“1,2,3,4,5”,就表示每个月的1日、2日、3日、4日和5日执行该定时任务。 周期类型为“week”时,“runAt”输入“mon,tue,wed,thu,fri”,就表示周一到周五执行该定时任务。
-
执行Postgresql-to-Hive迁移作业报错“Error occurs during loader run” - 云数据迁移 CDM
执行Postgresql-to-Hive迁移作业报错“Error occurs during loader run” 问题描述 用户使用CDM服务,从源端pg迁移数据到目的端hive界面报错提示“Error occurs during loader run”。 故障分析 排查客户
-
Mysql导入数据到DLI,快执行完时失败了提示Invoke DLI service api failed错误怎么解决? - 云数据迁移 CDM
Mysql导入数据到DLI,快执行完时失败了提示Invoke DLI service api failed错误怎么解决? 问题描述 导入了4000W数据,快执行完时报如下错误。 故障分析 结合报错,考虑是DLI目的端写入问题。但因日志截图不全,进入CDM集群,查看客户作业日志。
-
读Hudi作业字段映射多了一列col,作业执行失败怎么处理? - 云数据迁移 CDM
读Hudi作业字段映射多了一列col,作业执行失败怎么处理? 问题原因:使用Spark SQL写数据入hudi表,由于配置问题,表schema中会自动增加一列类型为array<string>,名称为col的列。 解决方案:字段映射中删去此列,如果是自动建表,SQL中也要把此列删去。
-
场景介绍 - 云数据迁移 CDM
跨越多个交换机设备。 CDM通过DES(数据快递服务)迁移1个月前的历史数据,迁移路径如下: CDH → DES → CDM(华为云) → OBS → CDM(华为云) → MRS DES适用场景:数据量大,用户私有云与华为云无专线打通,用户私有云网络到公网带宽有限。 优点:传输可靠性高,受专线以及网络质量影响较小。
-
字段映射界面无法显示所有列怎么处理? - 云数据迁移 CDM
g:UPLOAD_PEOPLE g:ID g:INFOMATION_ID g:TITLE g:COORDINATE_X g:COORDINATE_Y g:COORDINATE_Z g:CONTENT g:IMAGES g:STATE 在CDM的作业管理界面,找到HBase导出数据