检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hudi目的端的作业执行卡Running,读取行数写入行数相等且不再增加怎么解决? 问题描述 CDM写Hudi为两段式,先写到hive临时表,然后再执行spark sql写到Hudi,写入行数统计的是写hive临时表的行数,当行数不再增长时,说明源端数据已经读完写到Hive表中,此时作业正在执行Spark SQL过程中,需要等Spark
的端作业配置的高级属性中,可以通过“先导入阶段表”参数选择是否启用事务模式。 参数原理:如果启用,在作业执行时CDM会自动创建临时表,先将数据导入到该临时表,导入成功后再通过数据库的事务模式将数据迁移到目标表中;导入失败则将目的表回滚到作业开始之前的状态。 图1 事务模式迁移 如
的端作业配置的高级属性中,可以通过“先导入阶段表”参数选择是否启用事务模式。 参数原理:如果启用,在作业执行时CDM会自动创建临时表,先将数据导入到该临时表,导入成功后再通过数据库的事务模式将数据迁移到目标表中;导入失败则将目的表回滚到作业开始之前的状态。 图1 事务模式迁移 如
状态码 状态码如表1所示。 表1 状态码 状态码 编码 状态说明 100 Continue 继续请求。 这个临时响应用来通知客户端,它的部分请求已经被服务器接收,且仍未被拒绝。 101 Switching Protocols 切换协议。只能切换到更高级的协议。 例如,切换到HTTP的新版本协议。
在Hudi源端读Hudi作业长时间处于BOOTING状态。 原因分析 除去Yarn队列资源问题,一般作业是卡在执行Spark SQL读Hudi写Hive临时表,这步执行的速度取决于Hudi表的数据量与Yarn队列剩余资源。 作业配置了导入前清空数据,dws表存量数据多,卡在truncate table操作步骤中,默认5分钟超时。
为了确保您的个人敏感数据(例如用户名、密码、手机号码等)不被未经过认证、授权的实体或者个人获取,CDM对用户数据的存储和传输进行加密保护,以防止个人数据泄露,保证您的个人数据安全。 数据销毁机制 用户删除CDM集群后,存储在集群上的用户个人敏感数据会随之删除。 用户在控制台上删除填写的手机号、邮箱,并关闭消
S的dli-trans*内部临时桶生成数据文件,因此在需要赋予DLI连接中使用AK/SK所在用户对dli-trans*桶的读、写、创建目录对象等权限,否则会导致迁移失败。dli-trans*内部临时桶的权限策略添加请参见新增dli-trans*内部临时桶授权策略。 表1 DLI作为目的端时的作业参数
迁移数据到DLI时,DLI要在OBS的dli-trans*内部临时桶生成数据文件,因此在需要赋予DLI连接中使用AK/SK所在用户对dli-trans*桶的读、写、创建目录对象等权限,否则会导致迁移失败。dli-trans*内部临时桶的权限策略添加请参见新增dli-trans*内部临时桶授权策略。 表1 DLI连接参数
Token认证。 AK/SK既可以使用永久访问密钥中的AK/SK,也可以使用临时访问密钥中的AK/SK,但使用临时访问密钥的AK/SK时需要额外携带“X-Security-Token”字段,字段值为临时访问密钥的security_token。 AK/SK认证就是使用AK/SK对请
通过数据开发使用参数传递灵活调度CDM作业 如果CDM作业接收来自数据开发作业配置的参数,则在数据开发模块可以使用诸如EL表达式传递动态参数来调度CDM作业。 本示例介绍的参数传递功能仅支持CDM 2.8.6版本及以上集群。 本示例以执行迁移Oracle数据到MRS Hive的C
选择是否开启消息通知。开启后,支持配置20个手机号码或邮箱,作业(目前仅支持表/文件迁移的作业)失败时、EIP异常时会发送短信或邮件通知用。 phone_num 否 String 接收消息通知的手机号码。 email 否 String 接收消息通知的邮箱。 表4 cluster 参数
age > 18 and age <= 60 高级参数 先导入阶段表 如果选择“是”,则启用事务模式迁移,CDM会自动创建临时表,先将数据导入到该临时表,导入成功后再通过数据库的事务模式将数据迁移到目标表中,导入失败则将目的表回滚到作业开始之前的状态,具体请参见事务模式迁移。
在迁移表到CSV文件时,CDM默认是不迁移表的标题行,如果该参数选择“是”,CDM在才会将表的标题行数据写入文件。 否 写入到临时文件 将二进制文件先写入到临时文件(临时文件以“.tmp”作为后缀),迁移成功后,再进行rename或move操作,在目的端恢复文件。 否 作业成功标识文件
”时此参数有效,默认值为:“,”。 toJobConfig.writeToTempFile 否 Boolean 将二进制文件先写入到临时文件(临时文件以“.tmp”作为后缀),迁移成功后,再进行rename或move操作,在目的端恢复文件。 toJobConfig.duplicateFileOpType
列的其他数据列将被更新。 insert into 高级参数 先导入阶段表 如果选择“是”,则启用事务模式迁移,CDM会自动创建临时表,先将数据导入到该临时表,导入成功后再通过数据库的事务模式将数据迁移到目标表中,导入失败则将目的表回滚到作业开始之前的状态,具体请参见事务模式迁移。
String KMS密钥所属的项目ID。 toJobConfig.writeToTempFile 否 Boolean 将二进制文件先写入到临时文件(临时文件以“.tmp”作为后缀),迁移成功后,再进行rename或move操作,在目的端恢复文件。 toJobConfig.validateMD5
的表的数据。 age > 18 and age <= 60 先导入阶段表 如果选择“是”,则启用事务模式迁移,CDM会自动创建临时表,先将数据导入到该临时表,导入成功后再通过数据库的事务模式将数据迁移到目标表中,导入失败则将目的表回滚到作业开始之前的状态。 默认为“否”,CDM直
对应请求消息头,响应同样也有消息头,如“Content-type”。 表1 公共响应消息头 消息头名称 描述 是否必选 Content-Type 用于指明发送给接收者的实体正文的媒体类型。 类型:字符串。 默认值:application/json; charset=UTF-8 是 X-request-id
程中出现了失败,只需要再次运行任务,已经迁移过的文件就不会再次迁移。 写入到临时文件 二进制迁移文件时候,可以在目的端指定是否写入到临时文件。如果指定了该参数,在文件复制过程中,会将文件先写入到一个临时文件中,迁移成功后,再进行rename或move操作,在目的端恢复文件。 生成文件MD5值
程中出现了失败,只需要再次运行任务,已经迁移过的文件就不会再次迁移。 写入到临时文件 二进制迁移文件时候,可以在目的端指定是否写入到临时文件。如果指定了该参数,在文件复制过程中,会将文件先写入到一个临时文件中,迁移成功后,再进行rename或move操作,在目的端恢复文件。 生成文件MD5值