检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ApplicationId到MRS Resource Manager上看Yarn任务详情。 执行Spark SQL的速度与租户队列资源强相关,在执行Hudi任务前,请确保租户队列资源充足。 父主题: 故障处理类
的终端节点不同。本服务的Endpoint可从终端节点Endpoint获取。 - 项目 目标日志服务的项目名称,是日志服务中的资源管理单元,用于隔离和控制资源。 sls_project AccessKeyID 访问日志服务的访问密钥,用于标识用户。 - accessKeySecret
] } 参数说明 参数 是否必选 类型 说明 toJobConfig.queue 是 String 写入数据的资源队列。 toJobConfig.database 是 String 写入数据到数据湖探索(DLI)的哪个数据库。 toJobConfig.table
配置DLI源端参数 作业中源连接为DLI连接时,源端作业参数如表1所示。 表1 DLI作为源端时的作业参数 参数名 说明 取值样例 资源队列 选择目的表所属的资源队列。 DLI的default队列无法在迁移作业中使用,您需要在DLI中新建SQL队列。 cdm 数据库名称 写入数据的数据库名称。
Access Management,简称IAM)进行精细的权限管理。该服务提供用户身份认证、权限分配、访问控制等功能,可以帮助您安全的控制华为云资源的访问。关于IAM的详细介绍,请参见IAM产品介绍。 权限根据授权精细程度分为角色和策略。 角色:IAM最初提供的一种根据用户的工作职能定
台,使得该公司更好地聚焦业务,持续创新。 案例:车联网大数据业务上云 为搭建H公司车联网业务集团级的云管理平台,统一管理、部署硬件资源和通用类软件资源,实现IT应用全面服务化、云化,CDM(Cloud Data Migration,简称CDM)助力H公司做到代码“0”改动、数据“0”丢失迁移上云。
与CDM集群之间的网络。 操作步骤 进入购买云数据迁移服务界面。 创建CDM集群配置样例如下: 当前区域:选择CDM集群的区域,不同区域的资源之间内网不互通,这里必须选择与MySQL实例或DWS集群所在区域一致。 可用区:指在同一区域下,电力、网络隔离的物理区域,可用区之间内网互
如果数据切分不均匀,可以修改SQL配置DISTRIBUTE BY rand(),增加一个shuffle过程,打散数据(需要占用较多资源,资源不多时慎用)。 insert into xx select * from xxx DISTRIBUTE BY rand(); 使用DataArts
服务(Data Warehouse Service,简称DWS),进行交互式分析和报告统计收集。 云上数据回迁到本地:用户在使用公有云计算资源对海量数据进行处理后,将结果数据回流到本地业务系统,主要是各种关系型数据库和文件系统。 CDM迁移原理 用户使用CDM服务时,CDM管理系
权限策略添加请参见新增dli-trans*内部临时桶授权策略。 表1 DLI作为目的端时的作业参数 参数名 说明 取值样例 资源队列 选择目的表所属的资源队列。 DLI的default队列无法在迁移作业中使用,您需要在DLI中新建SQL队列。 新建队列操作请参考创建队列。 cdm
doesn't exist." } 状态码 状态码 描述 200 OK。 400 请求错误。 401 鉴权失败。 403 没有操作权限。 404 找不到资源。 500 服务内部错误,具体返回错误码请参考错误码。 错误码 请参见错误码。 父主题: 作业管理
} ] } 状态码 状态码 描述 200 请求成功。 400 请求错误。 401 鉴权失败。 403 没有操作权限。 404 找不到资源。 500 服务内部错误,具体返回错误码请参考错误码。 503 服务不可用。 错误码 请参见错误码。 父主题: 集群管理
0004d" ] } 状态码 状态码 描述 200 OK。 400 请求错误。 401 鉴权失败。 403 没有操作权限。 404 找不到资源。 500 服务内部错误,具体返回错误码请参考错误码。 503 服务不可用。 错误码 请参见错误码。 父主题: 集群管理
相比于传统的依靠CDM集群进行生命周期管理CDM迁移作业,离线集成作业依靠数据开发组件的生命周期管理,由数据开发进行集成作业的统一调度和CDM集群资源的统一支配,作业运行可靠性更高、使用体验更佳,推荐您使用离线集成作业替代传统的CDM迁移作业。关于离线集成作业的更多介绍,请您参考离线集成作业概述。
表1 准备数据 数据项 名称 说明 样例 云账户信息 项目名 CDM所属的项目名。 Project Name 项目ID CDM所属的项目ID。 1551c7f6c808414d8e9f3c514a170f2e 账号名 用户所属的企业账户名称。 Account Name 用户名 使
SDK代码示例。 状态码 状态码 描述 200 请求成功。 400 请求错误。 401 鉴权失败。 403 没有操作权限。 404 找不到资源。 500 服务内部错误,具体返回错误码请参考错误码。 503 服务不可用。 错误码 请参见错误码。 父主题: 集群管理
如果大量CDM作业同时执行,当超过当前CDM集群的并发执行作业数时,会导致作业排队,耗时提升。 建议您将迁移作业的运行时间错开,平摊在业务周期内,避免资源紧张导致迁移时间过长。 数据模型 数据迁移时,对于不同的数据结构,迁移速度也会受到一定影响。例如: 对于表迁移,宽表的迁移速度较慢,字符串类型越多(字段大小)迁移速度越慢。
如果大量CDM作业同时执行,当超过当前CDM集群的并发执行作业数时,会导致作业排队,耗时提升。 建议您将迁移作业的运行时间错开,平摊在业务周期内,避免资源紧张导致迁移时间过长。 调整抽取并发数 对于低任务量场景,调整抽取并发数是性能调优的最佳方式。CDM迁移作业支持设置作业抽取并发数,同时也可以设置集群最大抽取并发数。
持DataArts Studio工作空间级别的资源隔离,所有DataArts Studio工作空间均可使用。 集群创建好以后不支持修改规格,如果需要使用更高规格的,需要重新创建一个集群。 CDM集群为ARM或X86版本,依赖于底层资源的架构。 CDM暂不支持控制迁移数据的速度,请避免在业务高峰期执行迁移数据的任务。
全量模式为异步分片写入Hoodie,适用于一次全量写入场景。 微批模式为异步分批写入Hoodie,适用于对入库时间SLA要求较为严格的场景,以及对资源消耗较小,对MOR表存储类型在线进行压缩的场景。 说明: 运行-失败重试期间不允许修改此模式。 是 批次数据大小 “全量模式写Hoodie