检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
即使CDM绑定了弹性IP,也不会开放端口到弹性IP,攻击者无法通过弹性IP来访问和攻击CDM。不过从公网迁移数据的方式下,由于用户数据源也会暴露在公网,存在被第三方攻击的威胁,推荐用户在数据源服务器上通过ACL或防火墙对源端进行防护,比如仅放通来自CDM绑定的弹性IP的访问请求。
解决方案 优先联系DBA修改表结构,将需要过滤的列配置为索引列,然后重试。 如果由于数据不离散,导致还是失败请参考2~4,通过增大JDBC超时时间解决。 根据作业找到对应的MySQL连接名称,查找连接信息。 图2 连接信息 单击“连接管理”,在“操作”列中,单击“连接”进行编辑。 图3
持导出指定时间段内的数据,配合CDM的定时任务,可以实现MongoDB/DDS的增量迁移。 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。
原因分析 云搜索服务对于时间类型有一个特殊处理:如果存储的时间数据不带时区信息,在Kibana可视化的时候,Kibana会认为该时间为GMT标准时间。 在各个地区会产生日志显示时间与本地时区时间不一致的现象,例如,在东八区某地,日志显示时间比本地时区时间少8个小时。因此在CDM迁
如果大量CDM作业同时执行,当超过当前CDM集群的并发执行作业数时,会导致作业排队,耗时提升。 建议您将迁移作业的运行时间错开,平摊在业务周期内,避免资源紧张导致迁移时间过长。 数据模型 数据迁移时,对于不同的数据结构,迁移速度也会受到一定影响。例如: 对于表迁移,宽表的迁移速度较慢
可以直接访问Internet,同时可以访问内网。 在该机器上安装端口映射工具(IPOP)。 通过端口映射工具(IPOP)配置端口映射。 长时间将内网数据库暴露在公网会有安全风险,迁移数据完成后,请及时停止端口映射。 场景描述 这里假设是将内网MySQL迁移到云服务DWS,网络拓扑样例如图1所示。
CDM的优势如表1所示。 表1 CDM优势 优势项 用户自行开发 CDM 易使用 自行准备服务器资源,安装配置必要的软件并进行配置,等待时间长。 程序在读写两端会根据数据源类型,使用不同的访问接口。一般是数据源提供的对外接口,例如JDBC、原生API等,因此在开发脚本时需要依赖大量的库、SDK等,开发管理成本较高。
如果大量CDM作业同时执行,当超过当前CDM集群的并发执行作业数时,会导致作业排队,耗时提升。 建议您将迁移作业的运行时间错开,平摊在业务周期内,避免资源紧张导致迁移时间过长。 调整抽取并发数 对于低任务量场景,调整抽取并发数是性能调优的最佳方式。CDM迁移作业支持设置作业抽取并发数,同时也可以设置集群最大抽取并发数。
不配置时导出整表。 Where子句支持配置为时间宏变量,当数据表中有时间日期字段或时间戳字段时,配合定时执行作业,能够实现抽取指定日期的数据。 配置样例: 假设数据库表中存在表示时间的列DS,类型为“varchar(30)”,插入的时间格式类似于“2017-xx-xx”,如图1所示,参数配置如下:
不配置时导出整表。 Where子句支持配置为时间宏变量,当数据表中有时间日期字段或时间戳字段时,配合定时执行作业,能够实现抽取指定日期的数据。 配置样例: 假设数据库表中存在表示时间的列DS,类型为“varchar(30)”,插入的时间格式类似于“2017-xx-xx”,如图1所示,参数配置如下:
创建CDM自定义策略 如果系统预置的CDM权限策略,不满足您的授权要求,可以创建自定义策略。自定义策略中可以添加的授权项(Action)请参考策略和授权项。 目前华为云支持以下两种方式创建自定义策略: 可视化视图创建自定义策略:无需了解策略语法,按可视化视图导航栏选择云服务、操作
CDM访问云搜索服务集群。 CDM集群创建完成后,在集群管理界面选择“绑定弹性IP”,CDM通过EIP访问本地Elasticsearch。 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。 创建云搜索服务连接 单击CDM集群后的“作业管理”,进入作业管理界面,再选择“连接管理
Hive表trip_data有三个分区字段:骑行起始时间的年、骑行起始时间的年月、骑行起始时间的年月日,例如一条骑行记录的起始时间为2018/5/11 9:40,那么这条记录会保存在分区trip_data/2018/201805/20180511下面。对trip_data按时间维度统计汇总时,只需要对局部数据扫描,从而提升性能。
业实际启动时间-偏移量”。 在创建CDM表/文件迁移的作业,源连接选择为HBase连接或CloudTable连接时,高级属性的可选参数中可以配置时间区间。 图1 HBase时间区间 起始时间(包含该值),格式为“yyyy-MM-dd HH:mm:ss”,表示只抽取该时间及以后的数据。
业实际启动时间-偏移量”。 在创建CDM表/文件迁移的作业,源连接选择为HBase连接或CloudTable连接时,高级属性的可选参数中可以配置时间区间。 图1 HBase时间区间 起始时间(包含该值),格式为“yyyy-MM-dd HH:mm:ss”,表示只抽取该时间及以后的数据。
CDM访问云搜索服务集群。 CDM集群创建完成后,在集群管理界面选择“绑定弹性IP”,CDM通过EIP访问本地Elasticsearch。 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。 创建云搜索服务连接 单击CDM集群后的“作业管理”,进入作业管理界面,再选择“连接管理
Hive表trip_data有三个分区字段:骑行起始时间的年、骑行起始时间的年月、骑行起始时间的年月日,例如一条骑行记录的起始时间为2018/5/11 9:40,那么这条记录会保存在分区trip_data/2018/201805/20180511下面。对trip_data按时间维度统计汇总时,只需要对局部数据扫描,从而提升性能。
MRS集群所在的网络一致。 CDM集群创建完成后,选择集群操作列的“绑定弹性IP”,CDM通过EIP访问MRS HDFS。 图1 集群列表 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。 创建MRS HDFS连接 在CDM集群管理界面,单击集群后的“作业管理”,选择“连接管理
本地自建的MySQL数据库),需要用户的数据源可支持Internet公网访问,并为CDM集群实例绑定弹性IP。这种方式下安全实践是:本地数据源通过防火墙或安全策略仅允许CDM弹性IP访问。 仅支持常用的数据类型,字符串、数字、日期,对象类型有限支持,如果对象过大会出现无法迁移的问题。
能允许CDM访问云搜索服务集群。 CDM集群创建完成后,在集群管理界面选择“绑定弹性IP”,CDM通过EIP访问Oracle数据源。 如果用户对本地数据源的访问通道做了SSL加密,则CDM无法通过弹性IP连接数据源。 创建云搜索服务连接 单击CDM集群后的“作业管理”,进入作业管理界面,再选择“连接管理