检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
性能调优 概述 根据数据迁移模型分析,除了源端读取速度、目的端写入性能、带宽优化外,您也可以通过如下方式优化作业迁移速度: 使用大规格CDM集群 不同规格的CDM集群网卡带宽、集群最大抽取并发数等有所差异。
区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。
参考:CDM性能实测数据 背景说明 文中提供的性能指标仅用于参考,实际环境会受源或目标数据源性能、网络带宽及时延、数据及业务模型等因素影响。推荐您在正式迁移前,可先用小数据量实测进行速度摸底。 环境信息 CDM集群为xlarge规格,2.9.1 200版本。
单个cdm.large规格实例理论上可以支持1TB~8TB/天的数据迁移,实际传输速率受公网带宽、集群规格、文件读写速度、作业并发数设置、磁盘读写性能等因素影响。更多详情请参见性能白皮书。 父主题: 通用类
原因是DWS的varchar类型是按字节计算长度,一个中文字符在UTF-8编码下可能要占3个字节。当中文字符的字节超过DWS的varchar的长度时,就会出现错误:value too long for type character varying。
计算出来的shard属同一个。 1. 建议用户不选主键,让es自动生成_id, 这样获的hash值比较分散。 2. 如果用户的应用必须用自有主键替代_id,则只能建议用性能更好的ES集群。 父主题: 故障处理类
多种网络环境支持 随着云计算技术的发展,用户数据可能存在于各种环境中,例如公有云、自建/托管IDC(Internet Data Center,互联网数据中心)、混合场景等。在异构环境中进行数据迁移需要考虑网络连通性等因素,给开发和维护都带来较大难度。
这个场景是用户希望利用云上的计算和存储资源,需要先将本地数据迁移上云。该场景下,需要保证本地网络与云上网络是连通的。 图1 大数据迁移上云 数据批量入湖 这个场景支持用户本地数据全量和T+1增量入湖。 图2 数据批量入湖
多种网络环境支持 随着云计算技术的发展,用户数据可能存在于各种环境中,例如公有云、自建/托管IDC、混合场景等。在异构环境中进行数据迁移需要考虑网络连通性等因素,给开发和维护都带来较大难度。
缺点:在数据大量传输过程中会占用专线带宽,对客户并行进行的业务存在影响,跨越多个交换机设备。
表1 CDM集群规格 实例类型 核数/内存 最大带宽/基准带宽 并发作业数 适用场景 cdm.large 8核/16G 3/0.8 Gbps 16 单表规模≥1000万条。
cdm.xlarge:超大规格,16核CPU、32G内存的虚拟机,最大带宽/基准带宽为10/4 Gbps,集群作业并发数上限为32,适合使用10GE高速带宽进行TB级以上的数据量迁移。
项目 区域默认对应一个项目,这个项目由系统预置,用来隔离物理区域间的资源(计算资源、存储资源和网络资源),以默认项目为单位进行授权,用户可以访问您账号中该区域的所有资源。
CDM和DLI服务按需收费,帮助H公司客户释放了维护人员并降低了专用带宽成本,使得维护成本相比线下数据中心降低了70%,且使用门槛低,可实现已有数据的平滑迁移,使新业务上线周期相比之前缩短了50%。
同理,cdm.xlarge实例规格网卡的基准/最大带宽为4/10 Gbps,理论极限值在40TB左右;cdm.4xlarge实例规格网卡的基准/最大带宽为36/40 Gbps,理论极限值在360TB左右。对传输速度有要求的情况下可以使用多个数据集成实例实现。
CDM服务基于分布式计算框架,利用并行化处理技术,支持用户稳定高效地对海量数据进行移动,实现不停服数据迁移,快速构建所需的数据架构。 图1 CDM定位 产品功能 表/文件/整库迁移 支持批量迁移表或者文件,还支持同构/异构数据库之间整库迁移,一个作业即可迁移几百张表。
cdm.4xlarge实例规格CDM集群网卡的基准/最大带宽为36/40 Gbps。 通过公网互通时,网络带宽受到公网带宽的限制。CDM侧公网带宽规格受限于CDM集群所绑定的弹性公网IP,数据源侧受限于其所访问的公网带宽规格。
需要10GE高速带宽进行TB以上的数据量迁移时使用。 type 是 String 节点类型,当前只有“cdm”一种类型。 表6 nics 参数 是否必选 参数类型 描述 securityGroupId 是 String 安全组ID。 net-id 是 String 子网ID。
cdm.xlarge:超大规格,16核CPU、32G内存的虚拟机,最大带宽/基准带宽为10/4 Gbps,集群作业并发数上限为32,适合使用10GE高速带宽进行TB级以上的数据量迁移。
图5 删除CDM作业节点配置 如果需要在迁移完后进行计算操作,可在后续添加各种计算节点,完成数据计算。 配置DLF作业参数。 配置DLF作业参数,如图6所示。