检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Studio服务进入数据集成界面可以看到。 单击集群名称后,选择“标签”页签。 图2 修改集群配置 单击“添加/编辑标签”,通过添加、修改标签为CDM集群设置资源标识。 图3 添加标签 一个集群最多可添加10个标签。 标签键(key)的最大长度为36个字符,标签值(value)的最大长度为43个字符。
CDM依次将Task提交给运行池运行。根据集群配置管理中的“最大抽取并发数”参数,超出规格的Task排队等待运行。 因此作业抽取并发数和集群最大抽取并发数参数设置为适当的值可以有效提升迁移速度,您可参考下文有效配置抽取并发数。 集群最大抽取并发数的上限建议为vCPU核数*2,如表1所示。 表1 集群最大抽取并发数配置建议
不处理 删除 Hive表分区字段 “自动创建”设置为“不自动创建”时,无该此参数。 对Hive建表设置分区字段,多个值以逗号隔开。 A,B 表路径 “自动创建”设置为“不自动创建”时,无该此参数。 表路径。 - 存储格式 “自动创建”设置为“不自动创建”时,无该此参数。 选择存储格式。
启动作业标识文件为“ok.txt”,在源端生成文件成功后,再在文件目录下生成“ok.txt”,这样CDM就能读取到完整的文件。 另外,可以设置超时时间,在超时时间内,CDM会周期去查询标识文件是否存在,超时后标识文件还不存在的话,则作业任务失败。 启动作业标识文件本身不会被迁移。
启动作业标识文件为“ok.txt”,在源端生成文件成功后,再在文件目录下生成“ok.txt”,这样CDM就能读取到完整的文件。 另外,可以设置超时时间,在超时时间内,CDM会周期去查询标识文件是否存在,超时后标识文件还不存在的话,则作业任务失败。 启动作业标识文件本身不会被迁移。
创建CDM迁移作业时,支持设置该作业的抽取并发数。 该参数设置为适当的值可以有效提升迁移速度,过小则会限制迁移速度,过大则会导致任务过载、迁移失败。 迁移的目的端为文件时,CDM不支持多并发,此时应配置为单进程抽取数据。 表中每行数据大小为1MB以下的可以设置多并发抽取,超过1MB的建议单线程抽取数据。
避免资源紧张导致迁移时间过长。 调整抽取并发数 对于低任务量场景,调整抽取并发数是性能调优的最佳方式。CDM迁移作业支持设置作业抽取并发数,同时也可以设置集群最大抽取并发数。 CDM通过数据迁移作业,将源端数据迁移到目的端数据源中。其中,主要运行逻辑如下: 数据迁移作业提交运行
DWS主键或表只有一个字段时,要求字段类型必须是如下常用的字符串、数值、日期类型。从其他数据库迁移到DWS时,如果选择自动建表,主键必须为以下类型,未设置主键的情况下至少要有一个字段是以下类型,否则会无法创建表导致CDM作业失败。 INTEGER TYPES:TINYINT,SMALLINT
管理并查看CDM监控指标 CDM支持的监控指标 设置CDM告警规则 查看CDM监控指标 父主题: 创建并管理CDM集群
FusionInsight LibrA过程中,建议按如下顺序选取分布列: 有主键可以使用主键作为分布列。 多个数据段联合做主键的场景,建议设置所有主键作为分布列。 在没有主键的场景下,如果没有选择分布列,DWS会默认第一列作为分布列,可能会有数据倾斜风险。 因此,在单表或整库导入到DWS/FusionInsight
DIS的通道名。 dis 是否持久运行 用户自定义是否永久运行。设置为长久运行的任务,如果DIS系统发生中断,任务也会失败结束。 是 DIS分区ID DIS分区ID,该参数支持输入多个分区ID,使用英文逗号(,)分隔。 0,1,2 偏移量参数 设置从DIS拉取数据时的初始偏移量: 最新:最大偏移量,即拉取最新的数据。
cloudtable.com:2181 IAM统一身份认证 如果所需连接的CloudTable集群在创建时开启了“IAM统一身份认证”,该参数需设置为“是”,否则设置为“否”。 当选择IAM统一身份认证时,需要输入用户名、AK和SK。 否 用户名 登录CloudTable集群的用户名。 admin
CDM依次将Task提交给运行池运行。根据集群配置管理中的“最大抽取并发数”参数,超出规格的Task排队等待运行。 如何调整抽取并发数 集群最大抽取并发数的设置与CDM集群规格有关,并发数上限建议配置为vCPU核数*2,如表1所示。 表1 集群最大抽取并发数配置建议 规格名称 vCPUs/内存 集群并发数上限参考
先导入阶段表,如果设置为“true”,数据导入目的表之前会把数据先导入阶段表,如果成功导入阶段表,则再从阶段表导入到目的表,这样避免导入过程失败,在目的表遗留部分成功数据。 toJobConfig.extendCharLength 否 Boolean 扩大字符字段长度,如果设置为“tru
个文件,默认为|。 fromJobConfig.useQuery 否 Boolean 该参数设置为“true”时,上传到OBS的对象使用的对象名,为去掉query参数后的字符。 该参数设置为“false”时,上传到OBS的对象使用的对象名,包含query参数。 fromJobConfig
入门实践 当您参考创建集群、创建连接等一系列操作后,可以根据自身的业务需求使用CDM提供的一系列常用实践。 表1 常用最佳实践 实践 描述 使用教程 创建MRS Hive连接器 MRS Hive连接适用于MapReduce服务,本最佳实践为您介绍如何创建MRS Hive连接器。 MySQL数据迁移到OBS
样,所需的长度也不一样,一个中文字符在UTF-8编码下可能要占3个字节。该参数选择为“是”后,在DWS中自动创表时,会将字符类型的字段长度设置为原表的3倍,避免出现DWS表的字符字段长度不够的报错。 其他可选参数保持默认即可,详细说明可参见配置DWS目的端参数。 单击“下一步”进
审计与日志 云审计服务(Cloud Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 CTS可记录的CDM操作列表详见支持云审计的关键操
metastore中存在,但是表目录不存在,根因是在表目录下没有.hoodie目录。可能删表的时候只删了文件而没有drop table。 设置为主键或者预聚合键的列有空值,写入hoodie会失败。 查看作业配置,查看表属性中hoodie.datasource.write.recordkey
如果是导入到数据仓库服务(DWS),则还需在目的字段中选择分布列,建议按如下顺序选取分布列: 有主键可以使用主键作为分布列。 多个数据段联合做主键的场景,建议设置所有主键作为分布列。 在没有主键的场景下,如果没有选择分布列,DWS会默认第一列作为分布列,可能会有数据倾斜风险。 脱敏 隐藏字符串中的关