检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
公测中:云搜索服务(CSS),表格存储服务(CloudTable) MongoDB建议使用的版本:4.2。 用户需要具备DLI数据源所有字段的“查询表”权限,即SELECT权限。 MRS ClickHouse 数据仓库:MRS ClickHouse,数据湖探索(DLI) MRS ClickHouse建议使用的版本:21
“使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。 说明: SQL语句只能查询数据,支持join和嵌套写法,但不能有多条查询语句,比如 select * from table a; select * from table b。 不支持with语句。
b.d.e”、“a.b.d.f”。 fromJobConfig.queryString 否 String 使用Elasticsearch的查询字符串(query string)对源数据进行过滤,CDM只迁移满足过滤条件的数据。 父主题: 源端作业参数说明
他们进行日常管理工作。 IAM用户 由账号在IAM中创建的用户,是云服务的使用人员,具有身份凭证(密码和访问密钥)。 在我的凭证下,您可以查看账号ID和用户ID。通常在调用API的鉴权过程中,您需要用到账号、用户和密码等信息。 项目 区域默认对应一个项目,这个项目由系统预置,用来
用户组。 用户登录并验证权限 新创建的用户登录控制台,切换至授权区域,验证权限: 在“服务列表”中选择“云数据迁移服务”,进入CDM主界面查看集群,若未提示权限不足,表示“CDM ReadOnlyAccess”已生效。 在“服务列表”中选择除CDM服务外的任一服务,若提示权限不足,表示“CDM
配置OBS目的端参数 作业中目的连接为OBS连接时,即导入数据到云服务OBS时,目的端作业参数如表1所示。 高级属性里的参数为可选参数,默认隐藏,单击界面上的“显示高级属性”后显示。 表1 OBS作为目的端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 桶名 写入数据的OBS桶名。
校验结果。 脏数据归档 支持将迁移过程中处理失败的、被清洗过滤掉的、不符合字段转换或者不符合清洗规则的数据单独归档到脏数据日志中,便于用户查看。并支持设置脏数据比例阈值,来决定任务是否成功。
OBS上存储脏数据的目录,只有在配置了脏数据目录的情况下才会记录脏数据。 用户可以进入脏数据目录,查看作业执行过程中处理失败的数据或者被清洗过滤掉的数据,针对该数据可以查看源数据中哪些数据不符合转换、清洗规则。 /user/dirtydir 单个分片的最大错误记录数 当“是否写入脏数据”为“是”才显示该参数。
进入CDM主界面,单击左侧导航上的“集群管理”,选择集群后的“作业管理”。 单击“表/文件迁移”显示作业列表,提供以下批量操作: 作业分组 CDM支持对分组进行新增、修改、查找、删除。删除分组时,会将组内的所有作业都删除。 创建作业的任务配置中,如果已经将作业分配到了不同的分组中,则这里可以按分组显示作业、按分组批量启动作业、按分组导出作业等操作。
参见性能调优。这里保持默认值“1”。 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可通过该参数配置,写入脏数据前需要在CDM先配置好OBS连接。这里保持默认值“否”即可,不记录脏数据。 图3 任务配置 单击“保存并运行”,CDM立即开始执行作业。
} ] } 其他参数保持不变,单击“保存并运行”。 作业完成后,查询DWS表中的数据是否和HBase中的数据匹配。如果不匹配,请检查JSON文件中HBase和DWS字段的顺序是否一致。 父主题: 故障处理类
HH:mm:ss, -1, DAY)}', 执行Analyze语句 数据全部写入完成后会异步执行ANALYZE TABLE语句,用于优化Hive表查询速度。 执行的SQL如下: 非分区表:ANALYZE TABLE tablename COMPUTE STATISTICS 分区表:ANALYZE
这个参数是针对数据库导出到CSV文件的场景,如果一张表的数据量比较大,那么导出到CSV文件的时候,会生成一个很大的文件,有时会不方便下载或查看。这时可以在目的端指定该参数,这样会生成多个指定大小的CSV文件,避免导出的文件过大。该参数的数据类型为整型,单位为MB。 JSON格式
这个参数是针对数据库导出到CSV文件的场景,如果一张表的数据量比较大,那么导出到CSV文件的时候,会生成一个很大的文件,有时会不方便下载或查看。这时可以在目的端指定该参数,这样会生成多个指定大小的CSV文件,避免导出的文件过大。该参数的数据类型为整型,单位为MB。 JSON格式