检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
iii. 此外,您还必须确保该云服务的实例与CDM集群所属的企业项目必须相同,如果不同,需要修改工作空间的企业项目。 本示例CDM集群的虚拟私有云、子网以及安全组和RDS MySQL实例保持一致。 步骤一:数据准备 RDS的MySQL的数据库实例上创建数据库和表。 登录RDS
选择“资源管理 > 弹性资源池”,选择已购买的弹性资源池,单击操作列的“添加队列”,其中队列类型选择“SQL队列”,选择其他参数后提交创建。 在CDM侧重新配置迁移作业的DLI目的连接参数,其中资源队列”参数选择已创建的DLI“SQL队列”。 CDM重新提交迁移作业,查看作业执行日志。 父主题:
高数据迁移和集成的效率。 图1 迁移数据至DLI 常见迁移场景与迁移方案指导 表1 常见迁移场景与迁移方案指导 数据类型 迁移工具 迁移方案 Hive CDM 典型场景示例:迁移Hive数据至DLI Kafka CDM 典型场景示例:迁移Kafka数据至DLI Elasticsearch
使用CDM迁移数据至DLI CDM提供了可视化的迁移任务配置页面,支持多种数据源到数据湖的迁移能力。 本节操作介绍使用CDM迁移工具将数据从数据源迁移至DLI的操作步骤。 图1 使用CDM迁移数据至DLI操作流程 步骤1:创建CDM集群 CDM集群用于执行数据迁移作业,将数据从数据源迁移至DLI。
S集群的操作可以参考创建DWS集群。 已创建CDM迁移集群。创建CDM集群的操作可以参考创建CDM集群。 如果目标数据源为云下的数据库,则需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。
您可以通过云数据迁移服务CDM等迁移工具迁移数据至DLI,再使用DLI提交作业分析数据。 CDM支持数据库、数据仓库、文件等多种类型的数据源,通过可视化界面对数据源迁移任务进行配置,提高数据迁移和集成的效率。 具体操作请参考迁移外部数据源数据至DLI。 图1 迁移数据至DLI 配置DLI读写外部数据源
时,需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 数据源为云上的MRS、DWS时,网络互通需满足如下条件: i. CDM集群与云上服务处于不同区域的情况下,需要通过公网或者专线打通网络。通过
迁移外部数据源数据至DLI 迁移数据场景概述 使用CDM迁移数据至DLI 典型场景示例:迁移Hive数据至DLI 典型场景示例:迁移Kafka数据至DLI 典型场景示例:迁移Elasticsearch数据至DLI 典型场景示例:迁移RDS数据至DLI 典型场景示例:迁移DWS数据至DLI
本示例创建MRS集群时开启了Kerberos认证。 已创建CDM迁移集群。创建CDM集群的操作可以参考创建CDM集群。 如果目标数据源为云下的数据库,则需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。
数据迁移与数据传输 数据迁移与传输方式概述 迁移外部数据源数据至DLI 配置DLI读写外部数据源数据
已创建CDM迁移集群。创建CDM集群的操作可以参考创建CDM集群。 如果目标数据源为云下的数据库,则需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 数据源为云上的CSS服务时,网络互通需满足如下条件:
ve”。 虚拟私有云 数据源所使用的虚拟私有云。 子网 数据源所使用的子网。 路由表 显示子网实际绑定的路由表。 说明: 此处的路由表为目的数据源子网关联的路由表,不同于“路由信息”中的路由。“路由信息”中的路由为所绑定的队列下子网关联的路由表中的路由。 目的数据源子网与队列所在子网为不同的子网,否则会造成网段冲突。
为新的“通用队列”。 重新购买“通用队列”。 将在旧的“Spark队列”中的作业迁移到新的“通用型队列”中,即在提交Spark作业时指定新的队列。 释放旧的“Spark队列”,即删除或退订队列。 父主题: DLI弹性资源池和队列类
1.12版本的作业支持使用跨源认证。 仅在2023年5月1日后创建的队列,支持Flink作业使用跨源认证。 跨源认证类型 DLI支持四种类型的跨源认证,不同的数据源按需选择相应的认证类型。 CSS类型跨源认证:适用于“6.5.4”及以上版本的CSS集群且集群已开启安全模式。 Ker
在增强型跨源创建界面,配置具体的跨源连接参数。具体参考如下。 连接名称:设置具体的增强型跨源名称。 弹性资源池:选择DLI的队列。(未添加至资源池的队列,请直接选择队列名称。) 虚拟私有云:选择步骤1:获取外部数据源的内网IP、端口和安全组获取的外部数据源的虚拟私有云。 子网:选择步骤1:获取外部
配置完成后,单击“立即购买”。 “虚拟私有云”为步骤1:创建VPC创建的VPC。 添加路由。 进入VPC的路由表,配置路由规则。通常NAT创建成功会自动创建到NAT网关的路由。 目的地址为访问的公网IP地址,下一跳为NAT网关。 图6 添加路由 添加SNAT规则。 为新建的NAT网关添加SNAT规
SQL作业的状态,如果作业状态为“弹性扩缩容中”,表示队列正在扩容中。 操作步骤如下: 在DLI管理控制台左侧,选择“资源管理 > 队列管理”。 选择需要扩容的队列,单击“操作”列“更多”中的“弹性扩缩容”。 在“弹性扩缩容”页面,“变更方式”选择“扩容”,设置扩容的CU值。 图1
怎样修改DLI上已经创建好的表的字段名称? DLI本身不支持直接修改表的字段名称,但您可以通过以下步骤来解决这个问题表数据迁移的方式来解决该问题: 创建新表:创建一个新表,并定义新的表字段名称。 迁移数据:使用INSERT INTO ... SELECT语句将旧表的数据迁移到新表中。 删除
源池队列。 修改队列网段步骤 目前只支持计费模式为“包年包月”和“按需/专属资源模式”的队列修改网段。 在DLI管理控制台左侧,选择“资源管理 > 队列管理”。 选择待修改的队列,单击“操作”列“更多”中的“修改网段”。 图1 修改网段 填写需要的网段后,单击“确定”。队列修改网
数据源的访问凭证确保数据源认证的安全性,便于DLI安全访问数据源。数据加密服务(Data Encryption Workshop, DEW)是一个综合的云上数据加密服务,为您解决数据安全、密钥安全、密钥管理复杂等问题。本节操作介绍使用数据加密服务DEW存储数据源的认证信息的操作步骤。