检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
含了分隔符,所以无法使用分隔符进行字段分隔,此时可以使用正则表达式分隔。 正则表达式参数在源端作业参数中配置,要求源连接为对象存储或者文件系统,且“文件格式”必须选择“CSV格式”。 图1 正则表达式参数 在迁移CSV格式的文件时,CDM支持使用正则表达式分隔字段,并按照解析后的
s参数说明。 scheduleOffTime 否 String 定时关机的时间,定时关机时系统不会等待未完成的作业执行完成。 vpcId 否 String 指定虚拟私有云ID,用于集群网络配置。 name 否 String 集群名称。 sys_tags 否 Array of sys_tags
仅允许CDM基本操作(如创建、查询作业等)。CDM支持的授权项请参见权限策略及授权项。 如表1所示,包括了CDM的所有系统权限。 表1 CDM系统权限 系统角色/策略名称 描述 策略类别 CDM Administrator 操作权限: CDM管理员权限,可以对CDM资源执行任意
拥有CDM作业和连接的操作权限。 系统策略 CDM ReadOnlyAccess CDM服务只读权限,拥有该权限的用户仅能查看CDM集群、连接、作业。 系统策略 表2列出了CDM常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表2 常用操作与系统权限的关系 操作 CDM FullAccess
CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。 CDM集群所在VPC、子网、安全组,选择与DWS集群所在的网络一致。 如果安全控制原因不能使用相同子网和安全组,那么需要确保安全组规则能允许CDM访问云搜索服务集群。 CDM集群创建完成后,在集群管理
CDM集群的规格,按待迁移的数据量选择,一般选择cdm.medium即可,满足大部分迁移场景。 CDM集群所在VPC、子网、安全组,选择与DWS集群所在的网络一致。 如果安全控制原因不能使用相同子网和安全组,那么需要确保安全组规则能允许CDM访问云搜索服务集群。 CDM集群创建完成后,在集群管理
DES盒子在客户的虚拟机挂载的地址。 //虚拟机IP/huawei 存储管理系统 DES盒子的存储管理系统,与管理IP相关。 https://管理IP:8088/deviceManager/devicemanager/login/login.html 用户名 登录存储管理系统的用户名。 admin 密码 登录密码。
creation-user String 创建作业的用户。由系统生成,用户无需填写。 creation-date Long 作业创建的时间,单位:毫秒。由系统生成,用户无需填写。 update-date Long 作业最后更新的时间,单位:毫秒。由系统生成,用户无需填写。 is_incre_job
制格式存储的,CDM会无法解析。 从HBase/CloudTable导出数据时,由于HBase/CloudTable是无Schema的存储系统,CDM要求源端数值型字段是以字符串格式存储,而不能是二进制格式,例如数值100需存储格式是字符串“100”,不能是二进制“01100100”。
Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 2019-07-30 00:00:00 创建快照 如果选择“是”,CDM读取HDFS系统上的文件时,会先对待迁移的源目录创建快照(不
详细说明请参见使用时间宏变量完成增量同步。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 TBL_E 读取方式 包括HDFS和
creation-user 否 String 创建作业的用户。由系统生成,用户无需填写。 creation-date 否 Long 作业创建的时间,单位:毫秒。由系统生成,用户无需填写。 update-date 否 Long 作业最后更新的时间,单位:毫秒。由系统生成,用户无需填写。 is_incre_job
连接H公司本地的Apache Hadoop HDFS文件系统时,连接类型选择“Apache HDFS”,然后单击“下一步”。 图2 创建HDFS连接 名称:用户自定义连接名称,例如“hdfs_link”。 URI:配置为H公司HDFS文件系统的Namenode URI地址。 认证类型:安全
creation-user 否 String 创建作业的用户。由系统生成,用户无需填写。 creation-date 否 Long 作业创建的时间,单位:毫秒。由系统生成,用户无需填写。 update-date 否 Long 作业最后更新的时间,单位:毫秒。由系统生成,用户无需填写。 is_incre_job
creation-user 否 String 创建作业的用户。由系统生成,用户无需填写。 creation-date 否 Long 作业创建的时间,单位:毫秒。由系统生成,用户无需填写。 update-date 否 Long 作业最后更新的时间,单位:毫秒。由系统生成,用户无需填写。 is_incre_job
对象存储的类型。 linkConfig.obsBucketType 否 String OBS桶类型。 对象桶:OB。 并行文件系统:PFS。 说明: 桶类型分为对象桶和并行文件系统,对象桶过滤文件会比较慢,建议客户使用并行文件桶。 linkConfig.server 是 String OBS服务器的终端节点(Endpoint)。
详细说明请参见使用时间宏变量完成增量同步。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 TBL_E 高级属性 Where子句
本章节为您介绍对用户授权的方法,操作流程如图1所示。 前提条件 给用户组授权之前,请您了解用户组可以添加的CDM权限,并结合实际需求进行选择。CDM支持的系统权限,请参见CDM系统权限。若您需要对除CDM之外的其它服务授权,请参见权限策略,了解IAM支持服务的所有权限。 示例流程 图1 IAM用户授权流程 创建用户组并授权
BINARY_FILE:二进制格式,不解析文件内容直接传输,CDM会原样写入文件,不改变原始文件格式。 当选择“BINARY_FILE”时,源端也必须为文件系统。 toJobConfig.lineSeparator 否 String 行分割符号,当“toJobConfig.outputFormat
验CDM抽取的文件,是否与源文件一致。 该功能由源端作业参数“MD5文件名后缀”控制(“文件格式”为“二进制格式”时生效),配置为源端文件系统中的MD5文件名后缀。 当源端数据文件同一目录下有对应后缀的保存md5值的文件,例如build.sh和build.sh.md5在同一目录下