检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在CDM作业中配置脏数据功能,作业重跑成功,OBS桶排查脏数据类型存在问题,格式不匹配。 父主题: 故障处理类
图1 源端data的数据 图2 目的端data的数据 故障分析 RDS-Mysql和开源Mysql对于date类型的范围不一致。 开源Mysql的date范围一般为1000-01-0到9999-12-21,而RDS-Mysql支持date范围小于1000-01-0。
应用场景 大数据迁移上云 本地数据是指存储在用户自建或者租用的IDC中的数据,或者第三方云环境中的数据,包括关系型数据库、NoSQL数据库、OLAP数据库、文件系统等。 这个场景是用户希望利用云上的计算和存储资源,需要先将本地数据迁移上云。该场景下,需要保证本地网络与云上网络是连通的
故障分析 结合报错,考虑是DLI目的端写入问题。但因日志截图不全,进入CDM集群,查看客户作业日志。 根据分析步骤一报错,考虑是选错了队列类型,需要选择SQL队列。用户应该是先写到OBS文件,然后通过外表映射导入到DLI表。
日志路径 选择作业日志的OBS存储路径。日志默认存储在以dlf-log-{Projectid}命名的桶中。 说明: 若您想自定义存储路径,请参见(可选)修改作业日志存储路径选择您已在OBS服务侧创建的桶。
目的端作业配置 目的连接名称:选择创建DWS连接中的连接“dwslink”。 模式或表空间:选择待写入数据的DWS数据库。 自动创表:只有当源端和目的端都为关系数据库时,才有该参数。 表名:待写入数据的表名,可以手动输入一个不存在表名,CDM会在DWS中自动创建该表。
目的端作业配置 目的连接名称:选择创建DWS连接中的连接“dwslink”。 模式或表空间:选择待写入数据的DWS数据库。 自动创表:只有当源端和目的端都为关系数据库时,才有该参数。 表名:待写入数据的表名,可以手动输入一个不存在表名,CDM会在DWS中自动创建该表。
与其他云服务的关系 统一身份认证服务 您注册的云账号对其所拥有的资源及云服务具有完全的访问权限,如果您需要给企业中的员工设置不同的CDM访问权限,以达到不同员工之间的权限隔离,您可以使用统一身份认证服务(Identity and Access Management,简称IAM)进行精细的权限管理
管理集群标签 操作场景 CDM集群已经创建成功后,支持新增、修改及删除CDM集群的标签。使用标签可以标识多种云资源,后续在TMS标签系统或者CDM集群管理列表中可筛选出同一标签的云资源。 一个CDM集群最多可新增10个标签。 前提条件 已创建CDM集群。 操作步骤 登录CDM管理控制台
- OBS支持 需服务端支持OBS存储。在创建Hive表时,您可以指定将表存储在OBS中。 否 运行模式 “HIVE_3_X”版本支持该参数。支持以下模式: EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。 STANDALONE:连接实例运行在独立进程。
支持云审计的关键操作 云审计服务(Cloud Trace Service,简称CTS)为用户提供了云账户下资源的操作记录,可以帮您记录相关的操作事件,便于日后的查询、审计和回溯。 表1 支持云审计的关键操作列表 操作名称 资源类型 事件名称 创建集群 cluster createCluster
创建MySQL连接器 MySQL连接适用于第三方云MySQL服务,以及用户在本地数据中心或ECS上自建的MySQL。本教程为您介绍如何创建MySQL连接器。 前提条件 已获取连接MySQL数据库的IP地址、端口、数据库名称、用户名、密码,且该用户拥有MySQL数据库的读写权限。 本地
配额说明 CDM服务应用的基础设施如下: 弹性云服务器 虚拟私有云 弹性公网IP 消息通知服务 统一身份认证服务 其配额查看及修改请参见关于配额。
指定每次批量提交的行数,根据数据目的端和作业数据规模的大小配置该参数。如果配置过大或过小,可能影响作业的时长。 10000 SSL加密 可选参数,控制是否通过SSL加密方式连接数据仓库。 是 说明: 启用SSL加密需确保DWS本身已启用SSL加密。
当选择“BINARY_FILE”时,目的端也必须为文件系统。 fromJobConfig.lineSeparator 否 String 文件中的换行符,默认自动识别"\\n"、"\\r"或"\\r\\n"。手动配置特殊字符,如空格回车需使用URL编码后的值。
入门实践 当您参考创建集群、创建连接等一系列操作后,可以根据自身的业务需求使用CDM提供的一系列常用实践。 表1 常用最佳实践 实践 描述 使用教程 创建MRS Hive连接器 MRS Hive连接适用于MapReduce服务,本最佳实践为您介绍如何创建MRS Hive连接器。 MySQL
配置Redis源端参数 第三方云的Redis服务无法支持作为源端。如果是用户在本地数据中心或ECS上自行搭建的Redis支持作为源端或目的端。 作业中源连接为从本地Redis导出的数据时,源端作业参数如表1所示。 表1 Redis作为源端时的作业参数 参数类型 参数名 说明 取值样例
查看并修改CDM集群配置 操作场景 CDM集群已经创建成功后,您可以查看集群基本信息,并修改集群的配置。 查看集群基本信息: 集群信息:集群版本、创建时间、项目ID、实例ID和集群ID等。 节点配置:集群规格、CPU和内存配置等信息。 网络信息:网络配置。 支持修改集群的以下配置:
基本概念 CDM集群 CDM集群是指用户拥有的CDM实例,一个CDM集群由1个或多个虚拟机组成。一个用户可以创建多个CDM集群,例如为财务部门和采购部门各创建一个CDM实例,实现数据访问权限的隔离。 本地环境 本地环境是指用户自建或者租用的IDC中的数据存储系统,或者第三方云环境中的数据存储系统
Elasticsearch连接参数说明 Elasticsearch连接适用于第三方云的Elasticsearch服务,以及用户在本地数据中心或ECS上自建的Elasticsearch。 Elasticsearch连接器仅支持非安全模式的Elasticsearch集群。 作业运行中禁止修改密码或者更换用户