检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择“自定义字段”页签,填写字段名称及字段值后单击“确认”按钮,例如: 名称:InputTime。 值:${timestamp()},更多时间宏变量请参见表1。 图3 添加字段 表1 时间变量宏定义具体展示 宏变量 含义 实际显示效果 ${dateformat(yyyy-MM-dd)} 以yyyy-MM-dd格式返回当前时间。
您使用CDM的其它功能。 IAM是华为云提供权限管理的基础服务,无需付费即可使用,您只需要为您账号中的资源进行付费。关于IAM的详细介绍,请参见IAM产品介绍。 CDM权限 默认情况下,管理员创建的IAM用户没有任何权限,需要将其加入用户组,并给用户组授予策略或角色,才能使得用户
yy-MM-dd hh:mm:ss”。 表示只抽取该时间以前的数据。 fromJobConfig.formats 否 数据结构 时间格式,请参见fromJobConfig.formats参数说明。 fromJobConfig.formats参数说明 参数 是否必选 类型 说明 name
可以任意顺序出现在标签中。同一个集群标签的键不能重复,但是值可以重复,并且可以为空。 使用方式 CDM支持通过控制台方式创建集群标签,详情请参见创建集群标签。 父主题: 安全
mongodb 集合名称 相当于关系数据库的表名。单击输入框后面的按钮可进入选择集合名的界面,用户也可以直接输入集合名称。 如果选择界面没有待选择的表,请确认表是否已经创建,或者对应连接里的账号是否有元数据查询的权限。 COLLECTION 高级属性 查询筛选 创建用于匹配文档的筛选条件,CDM只迁移符合条件的数据。例如:
JSON格式:以JSON格式解析源数据。 二进制格式 字段分隔符 数据格式为“CSV格式”时呈现此参数。默认为逗号,使用Tab键作为分隔符请输入“\t”。 , 记录分隔符 数据格式为“CSV格式”或“JSON格式”时呈现此参数。用于配置每条记录之间的分隔符。 , 高级属性 最大消息数/poll
接参数配置。 否 集群配置名 仅当“是否使用集群配置”为“是”时,此参数有效。此参数用于选择用户已经创建好的集群配置。 集群配置的创建方法请参见管理集群配置。 hadoop_01 单击“显示高级属性”,然后单击“添加”,您可以添加客户端的配置属性。所添加的每个属性需配置属性名称和
需要抽取的字段列表,字段名之间使用“&”分割,例如:“id&gid&name”。 fromJobConfig.formats 否 数据结构 时间格式,请参见fromJobConfig.formats参数说明。 fromJobConfig.formats参数说明 参数 是否必选 类型 说明 name
单击“下一步”进入字段映射界面,CDM会自动匹配源和目的字段。 如果字段映射顺序不匹配,可通过拖拽字段调整。 CDM支持迁移过程中转换字段内容,详细请参见字段转换。 单击“下一步”配置任务参数,一般情况下全部保持默认即可。 该步骤用户可以配置如下可选功能: 作业失败重试:如果作业执行失败,
写入数据到HDFS服务器的目录。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间
单击“下一步”进入字段映射界面,CDM会自动匹配源和目的字段。 如果字段映射顺序不匹配,可通过拖拽字段调整。 CDM支持迁移过程中转换字段内容,详细请参见字段转换。 单击“下一步”配置任务参数,一般情况下全部保持默认即可。 该步骤用户可以配置如下可选功能: 作业失败重试:如果作业执行失败,
择界面。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间
、单击对字段批量映射两种方式来调整字段映射关系。 创建表达式转换器时,表达式的功能是对该字段的数据进行处理,故不建议使用时间宏,如需使用,请根据以下场景处理(源端是文件类的配置时仅支持方式一): 方式一:新建表达式转换器时,表达式需要用''包围。 ${dateformat(yyy
、单击对字段批量映射两种方式来调整字段映射关系。 创建表达式转换器时,表达式的功能是对该字段的数据进行处理,故不建议使用时间宏,如需使用,请根据以下场景处理(源端是文件类的配置时仅支持方式一): 方式一:新建表达式转换器时,表达式需要用''包围。 ${dateformat(yyy
为分布列。 在没有主键的场景下,如果没有选择分布列,DWS会默认第一列作为分布列,可能会有数据倾斜风险。 如CDM不支持源端迁移字段类型,请参见不支持数据类型转换规避指导将字段类型转换为CDM支持的类型。 新增字段 您可以单击字段映射界面的选择“添加新字段”自定义新增字段,通常用
SON文件,作用等同于修改作业的参数配置。 配置定时任务:选择作业操作列的“更多 > 配置定时任务”,可选择在有效期内周期性启动作业,具体请参考配置CDM作业定时任务。 日志:选择作业操作列的“更多 > 日志”,可查看该作业最近的一次日志。 也可以在历史记录界面可查看作业所有的日志。
忽略不存在原路径/文件 如果将其设为是,那么作业在源路径不存在的情况下也能成功执行。 否 MD5文件名后缀 校验CDM抽取的文件,是否与源文件一致,详细请参见MD5校验文件一致性。 .md5 QUERY参数 此字段为true时,则上传对象时使用的对象名为去掉query参数的字符。 否 父主题:
的CDM迁移作业。关于离线集成作业的更多介绍,请您参考离线集成作业概述。 离线处理集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员。 CDM服务基于分布式计算框架,利用并行化处理技术,支持用户稳定高效地对海量数据进行移动,实现不停服数据迁移,快速构建所需的数据架构。
omm:hadoop –R /hbase/data/default/table_20180811 omm:hadoop:表示用户名,实际场景中请替换。 /hbase/data/default/table_20180811:表示表所在路径。 执行恢复元数据命令。 hbase hbck –fixMeta
V格式”。 图1 正则表达式参数 在迁移CSV格式的文件时,CDM支持使用正则表达式分隔字段,并按照解析后的结果写入目的端。正则表达式语法请参考对应的相关资料,这里举例下面几种日志文件的正则表达式的写法: Log4J日志 Log4J审计日志 Tomcat日志 Django日志 Apache