云服务器内容精选

华为云首页用户手册

数据湖探索 DLI

数据湖探索 DLI-配置DLI 队列与公网网络联通:步骤5：配置NAT网关

步骤5：配置NAT网关创建NAT网关。登录控制台，在“服务列表”搜索“NAT网关”，进入网络控制台页面。单击“购买公网NAT网关”，配置NAT网关的相关信息。详细请参考《NAT网关用户指南》中“购买公网NAT网关”。图4 购买NAT网关配置完成后，单击“立即购买”。 “虚拟私有云”为步骤1：创建VPC创建的VPC。添加路由。进入VPC的路由表，配置路由规则。通常NAT创建成功会自动创建到NAT网关的路由。目的地址为访问的公网IP地址，下一跳为NAT网关。图5 添加路由添加SNAT规则。为新建的NAT网关添加SNAT规则，才能实现该子网下的主机与Internet互相访问。 NAT网关购买成功后，在NAT控制台，单击购买成功的NAT网关“名称”，进入NAT网关详情页面。选择“SNAT规则”页签，单击“添加SNAT规则”。详细请参考《NAT网关用户指南》中“添加SNAT规则”。使用场景选择云专线/云连接。添加专属队列所在的网段。绑定对应的弹性公网IP。图6 添加SNAT规则添加完成后，单击“确定”。

数据湖探索 DLI
数据湖探索 DLI-配置DLI队列与内网数据源的网络联通:前提条件

前提条件已创建 DLI 队列。创建队列详见创建DLI队列操作指导。队列的计费类型必须为：“包年/包月”，“按需计费”（按需计费需勾选“专属资源模式”。）仅“包年/包月”资源、“专属资源模式”的“按需计费”资源才能创建增强型跨源链接。已创建对应的外部数据源集群。具体对接的外部数据源根据业务自行选择。表1 创建各外部数据源参考服务名参考文档链接 RDS RDS MySQL快速入门。 DWS 创建DWS集群 DMS Kafka 创建Kafka实例注意：创建DMS Kafka实例时，不能开启Kafka SASL_SSL。 CSS 创建 CS S集群 MRS 创建MRS集群绑定跨源的DLI队列网段和其他数据源子网网段不能重合。系统default队列不支持创建跨源连接。

数据湖探索 DLI 队列网络联通
数据湖探索 DLI-永洪BI制作图表:操作步骤

操作步骤在永洪SaaS生产环境主页，单击左侧导航栏中的“制作报告”，请参见图1。图1 制作报告选择图表风格，请参见图2。图2 选择报告风格选择“清爽绿主题”为例，在界面左侧下拉选择添加已创建的数据集，选择其中的一个表（例如table_child）作为数据源，会在下方的“数据”栏显示出该表的元数据（包括字段和字段类型），请参见图3。图3 选择表数据源在制作报告界面，制表组件主要包括图表、表、交叉表、列表过滤等，以新建图表为例，单击工具栏中的“新建图表 ”，将其拖入编辑区域，请参见图4。图4 新建图表选择“name”作为X变量，“age”作为Y变量，将其直接拖入对应的位置，系统将自动生成对应的柱状图，请参见图5。图5 生成图表在“制作图表”页面工具栏中单击“保存”，完成制作图表。

数据湖探索 DLI
数据湖探索 DLI-永洪BI创建数据集:操作步骤

操作步骤在永洪SaaS生产环境主页，单击左侧导航栏中的“创建数据集”，请参见图1。图1 创建数据集在“数据集类型”页面中，选择创建“SQL数据集”，请参见图2。图2 创建SQL数据集在“创建数据集”页面中，左侧“数据源”栏选择已添加的DLI数据源，请参见图3。图3 选择数据源左侧“表”栏中点击右键，刷新表，将列出所有数据库及数据库下面的数据表（这是添加数据源时，“表结构模式”没有配置时的情况），请参见图4。图4 刷新数据表在左侧“SQL语句”栏中执行表查询命令”select * from table_name“，点击“刷新元数据”，再单击右侧“预览数据”栏下左侧的“预览元数据”，可查询出该表的元数据（包括字段，字段类型等），请参见图5。图5 查询数据表单击右侧“预览数据”栏下右侧的“数据细节”，可查询出该表的数据，请参见图6。图6 查询数据表数据在“创建数据集”页面工具栏中单击“保存”，完成创建数据集。

数据湖探索 DLI
数据湖探索 DLI-永洪BI对接准备工作:操作步骤

操作步骤（可选）在公有云管理控制台上方的“服务列表”中选择“大数据”中的“ 数据湖探索 ”，单击右上角的“常用链接”下载DLI JDBC驱动（例如：dli-jdbc-1.1.0-jar-with-dependencies-jdk1.7.jar）。具体操作请参考下载JDBC驱动包。 JDBC认证方式支持AK/SK方式和Token方式，建议采用AK/SK方式。询问永洪客服，获取永洪SaaS生产环境用户账号和密码。登入永洪SaaS生产环境，输入用户账号和密码。

数据湖探索 DLI 永洪BI对接DLI提交Spark作业
数据湖探索 DLI-最佳实践内容概览:数据迁移

数据迁移您可以通过云数据迁移服务 CDM 轻松的将其他云服务或者业务平台的数据迁移至DLI。包括以下最佳实践内容：迁移Hive数据至DLI，具体请参考迁移Hive数据至DLI。迁移Kafka数据至DLI，具体请参考迁移Kafka数据至DLI。迁移Elasticsearch数据至DLI，具体请参考迁移Elasticsearch数据至DLI。迁移RDS数据至DLI，具体请参考迁移RDS数据至DLI。迁移DWS数据至DLI，具体请参考迁移DWS数据至DLI。

数据湖探索 DLI
数据湖探索 DLI-最佳实践内容概览:数据分析

数据分析 DLI应用于海量的日志数据分析和大数据ETL处理，助力各行业使能数据价值。当前数据分析最佳实践内容如下：使用DLI进行车联网场景驾驶行为数据分析，具体请参考使用DLI进行车联网场景驾驶行为数据分析。使用DLI将CSV数据转换为Parquet数据，具体请参考使用DLI将CSV数据转换为Parquet数据。使用DLI进行电商BI报表分析，具体请参考使用DLI进行电商BI报表分析。使用DLI进行账单分析与优化，具体请参考使用DLI进行账单分析与优化。使用DLI Flink SQL进行电商实时业务数据分析，具体请参考使用DLI Flink SQL进行电商实时业务数据分析。

数据湖探索 DLI
数据湖探索 DLI-数据迁移概览:数据迁移数据类型映射

数据迁移数据类型映射将其他云服务或业务平台数据迁移到DLI ，或者将DLI数据迁移到其他云服务或业务平台时，涉及到源和目的端数据类型的转换和映射，根据表1可以获取到源和目的端的数据类型映射关系。表1 数据类型映射表 MySQL Hive DWS Oracle PostgreSQL Hologres DLI Spark CHAR CHAR CHAR CHAR CHAR CHAR CHAR VARCHAR VARCHAR VARCHAR VARCHAR VARCHAR VARCHAR VARCHAR/STRING DECIMAL DECIMAL NUMERIC NUMERIC NUMERIC DECIMAL DECIMAL INT INT INTEGER NUMBER INTEGER INTEGER INT BIGINT BIGINT BIGINT NUMBER BIGINT BIGINT BIGINT/LONG TINYINT TINYINT SMALLINT NUMBER SMALLINT SMALLINT TINYINT SMALLINT SMALLINT SMALLINT NUMBER SMALLINT SMALLINT SMALLINT/SHORT BINARY BINARY BYTEA RAW BYTEA BYTEA BINARY VARBINARY BINARY BYTEA RAW BYTEA BYTEA BINARY FLOAT FLOAT FLOAT4 FLOAT DOUBLE FLOAT4 FLOAT DOUBLE DOUBLE FLOAT8 FLOAT REAL/DOUBLE FLOAT8 DOUBLE DATE DATE TIMESTAMP DATE DATE DATE DATE TIME 不支持（推荐使用：String） TIME DATE TIME TIME 不支持（推荐使用：String） DATETIME TIMESTAMP TIMESTAMP TIME TIME TIMESTAMP TIMESTAMP TINYINT TINYINT BOOLEAN 不支持 TINYINT BOOLEAN BOOLEAN 不支持（推荐使用：TEXT）不支持（推荐使用：String）不支持（推荐使用：TEXT）不支持（推荐使用：VARCHAR）不支持（推荐使用：TEXT）不支持（推荐使用：TEXT） ARRAY 不支持（推荐使用：TEXT）不支持（推荐使用：String）不支持（推荐使用：TEXT）不支持（推荐使用：VARCHAR）不支持（推荐使用：TEXT）不支持（推荐使用：TEXT） MAP 不支持（推荐使用：TEXT）不支持（推荐使用：String）不支持（推荐使用：TEXT）不支持（推荐使用：VARCHAR）不支持（推荐使用：TEXT）不支持（推荐使用：TEXT） STRUCT 推荐使用：表示当前服务没有支持的标准数据类型，可以使用推荐的数据类型来替换使用。

数据湖探索 DLI
数据湖探索 DLI-迁移DWS数据至DLI:步骤二：数据迁移

步骤二：数据迁移配置CDM数据源连接。创建源端DWS数据库的连接。登录CDM控制台，选择“集群管理”，选择已创建的CDM集群，在操作列选择“作业管理”。在作业管理界面，选择“连接管理”，单击“新建连接”，连接器类型选择“ 数据仓库服务（DWS）”，单击“下一步”。配置连接DWS的数据源连接参数，具体参数配置如下。表1 DWS数据源配置参数值名称自定义DWS数据源名称。例如当前配置为：source_dws。数据库服务器单击输入框旁边的“选择”按钮，选择当前已创建的DWS集群名称。端口 DWS数据库的端口，默认为：8000。数据库名称当前需要迁移的DWS数据库名称。当前示例为DWS集群上创建数据库和表中创建的数据库“testdwsdb”。用户名待连接数据库的用户。该数据库用户需要有数据表的读写权限，以及对元数据的读取权限。本示例使用创建DWS数据库实例的默认管理员用户“dbadmin”。密码对应的DWS数据库用户的密码。图2 CDM配置DWS数据源其他更多参数保持默认即可，如果需要了解更多参数说明，可以参考配置关系数据库连接。单击“保存”完成DWS数据源连接配置。创建目的端DLI数据源的连接。登录CDM控制台，选择“集群管理”，选择已创建的CDM集群，在操作列选择“作业管理”。在作业管理界面，选择“连接管理”，单击“新建连接”，连接器类型选择“ 数据湖探索（DLI）”，单击“下一步”。图3 创建DLI数据源连接配置目的端DLI数据源连接。具体参数配置可以参考在CDM上配置DLI连接。图4 创建DLI数据源连接配置完成后，单击“保存”完成DLI数据源配置。创建CDM迁移作业。登录CDM控制台，选择“集群管理”，选择已创建的CDM集群，在操作列选择“作业管理”。在“作业管理”界面，选择“表/文件迁移”，单击“新建作业”。在新建作业界面，配置当前作业配置信息，具体参数参考如下：图5 CDM数据迁移作业配置作业名称：自定义数据迁移的作业名称。例如，当前定义为：test。源端作业配置，具体参考如下：表2 源端作业配置参数名参数值源连接名称选择1.a中已创建的数据源名称。使用SQL语句 “使用SQL语句”选择“是”时，您可以在这里输入自定义的SQL语句，CDM将根据该语句导出数据。本示例当前选择为“否”。模式或表空间 “使用SQL语句”选择“否”时，显示该参数，表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面，用户也可以直接输入模式或表空间名称。本示例因为DWS集群上创建数据库和表中没有创建SCHEMA，则本参数为默认的“public”。如果选择界面没有待选择的模式或表空间，请确认对应连接里的账号是否有元数据查询的权限。说明：该参数支持配置通配符（*），实现导出以某一前缀开头或者以某一后缀结尾的所有数据库。例如： SCHEMA*表示导出所有以“SCHEMA”开头的数据库。 *SCHEMA表示导出所有以“SCHEMA”结尾的数据库。 *SCHEMA*表示数据库名称中只要有“SCHEMA”字符串，就全部导出。表名待迁移的DWS数据表名。当前为DWS集群上创建数据库和表中的“table1”表。更多详细参数配置请参考配置关系数据库源端参数。目的端作业参数配置，具体参考如下：表3 目的端作业配置参数名参数值目的连接名称选择已创建的DLI数据源连接。资源队列选择已创建的DLI SQL类型的队列。数据库名称选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表创建的数据库名，即为“testdb”。表名选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表创建的表名，即为“tabletest”。导入前清空数据选择导入前是否清空目的表的数据。当前示例选择为“否”。如果设置为是，任务启动前会清除目标表中数据。详细的参数配置可以参考：CDM配置DLI目的端参数。单击“下一步”，进入到字段映射界面，CDM会自动匹配源和目的字段。如果字段映射顺序不匹配，可通过拖拽字段调整。如果选择在目的端自动创建类型，这里还需要配置每个类型的字段类型、字段名称。 CDM支持迁移过程中转换字段内容，详细请参见字段转换。图6 字段映射单击“下一步”配置任务参数，一般情况下全部保持默认即可。该步骤用户可以配置如下可选功能：作业失败重试：如果作业执行失败，可选择是否自动重试，这里保持默认值“不重试”。作业分组：选择作业所属的分组，默认分组为“DEFAULT”。在CDM“作业管理”界面，支持作业分组显示、按组批量启动作业、按分组导出作业等操作。是否定时执行：如果需要配置作业定时自动执行，请参见配置定时任务。这里保持默认值“否”。抽取并发数：设置同时执行的抽取任务数。这里保持默认值“1”。是否写入脏数据：如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中，以便后面查看，可通过该参数配置，写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可，不记录脏数据。单击“保存并运行”，回到作业管理界面，在作业管理界面可查看作业执行进度和结果。图7 迁移作业进度和结果查询

数据湖探索 DLI
数据湖探索 DLI-迁移DWS数据至DLI:步骤一：数据准备

步骤一：数据准备 DWS集群上创建数据库和表。参考使用gsql命令行客户端连接DWS集群连接已创建的DWS集群。执行以下命令连接DWS集群的默认数据库“gaussdb”： gsql -d gaussdb -h DWS集群连接地址 -U dbadmin -p 8000 -W password -r gaussdb：DWS集群默认数据库。 DWS集群连接地址：请参见获取集群连接地址进行获取。如果通过公网地址连接，请指定为集群“公网访问地址”或“公网访问域名 ”，如果通过内网地址连接，请指定为集群“内网访问地址”或“内网访问域名”。如果通过弹性负载均衡连接，请指定为“弹性负载均衡地址”。 dbadmin：创建集群时设置的默认管理员用户名。 -W：默认管理员用户的密码。在命令行窗口输入以下命令创建数据库“testdwsdb”。 CREATE DATABASE testdwsdb; 执行以下命令，退出gaussdb数据库，连接新创建的数据库“testdwsdb”。 \q gsql -d testdwsdb -h DWS集群连接地址 -U dbadmin -p 8000 -W password -r 执行以下命令创建表并插入数据。创建表： CREATE TABLE table1(id int, a char(6), b varchar(6),c varchar(6)) ; 插入表数据： INSERT INTO table1 VALUES(1,'123','456','789'); INSERT INTO table1 VALUES(2,'abc','efg','hif'); 查询表数据确认数据插入成功。 select * from table1; 图1 查询表数据在DLI上创建数据库和表。登录DLI管理控制台，选择“SQL编辑器”，在SQL编辑器中“执行引擎”选择“spark”，“队列”选择已创建的SQL队列。在编辑器中输入以下语句创建数据库，例如当前创建迁移后的DLI数据库testdb。详细的DLI创建数据库的语法可以参考创建DLI数据库。 create database testdb; 在“SQL编辑器”中，数据库选择“testdb”，执行以下建表语句创建数据库下的表。详细的DLI建表语法可以参考创建DLI表。 create table tabletest(id INT, name1 string, name2 string, name3 string);

数据湖探索 DLI
数据湖探索 DLI-迁移DWS数据至DLI:前提条件

前提条件已创建DLI的SQL队列。创建DLI队列的操作可以参考创建DLI队列。创建DLI队列时队列类型需要选择为“SQL队列”。已创建数据仓库服务DWS集群。具体创建DWS集群的操作可以参考创建DWS集群。已创建CDM迁移集群。创建CDM集群的操作可以参考创建CDM集群。如果目标数据源为云下的数据库，则需要通过公网或者专线打通网络。通过公网互通时，需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。数据源为云上的DWS、MRS等服务时，网络互通需满足如下条件： i. CDM集群与云上服务处于不同区域的情况下，需要通过公网或者专线打通网络。通过公网互通时，需确保CDM集群已绑定EIP，数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 ii. CDM集群与云上服务同区域情况下，同虚拟私有云、同子网、同安全组的不同实例默认网络互通；如果同虚拟私有云但是子网或安全组不同，还需配置路由规则及安全组规则。配置路由规则请参见如何配置路由规则章节，配置安全组规则请参见如何配置安全组规则章节。 iii. 此外，您还必须确保该云服务的实例与CDM集群所属的企业项目必须相同，如果不同，需要修改工作空间的企业项目。本示例CDM集群的虚拟私有云、子网以及安全组和DWS集群保持一致。

数据湖探索 DLI
数据湖探索 DLI-迁移RDS数据至DLI:前提条件

前提条件已创建DLI的SQL队列。创建DLI队列的操作可以参考创建DLI队列。创建DLI队列时队列类型需要选择为“SQL队列”。已创建云数据库RDS的MySQL的数据库实例。具体创建RDS集群的操作可以参考创建RDS MySQL数据库实例。本示例RDS数据库引擎：MySQL 本示例RDS MySQL数据库版本：5.7。已创建CDM迁移集群。创建CDM集群的操作可以参考创建CDM集群。如果目标数据源为云下的数据库，则需要通过公网或者专线打通网络。通过公网互通时，需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。数据源为云上服务RDS、MRS时，网络互通需满足如下条件： i. CDM集群与云上服务处于不同区域的情况下，需要通过公网或者专线打通网络。通过公网互通时，需确保CDM集群已绑定EIP，数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 ii. CDM集群与云上服务同区域情况下，同虚拟私有云、同子网、同安全组的不同实例默认网络互通；如果同虚拟私有云但是子网或安全组不同，还需配置路由规则及安全组规则。配置路由规则请参见如何配置路由规则章节，配置安全组规则请参见如何配置安全组规则章节。 iii. 此外，您还必须确保该云服务的实例与CDM集群所属的企业项目必须相同，如果不同，需要修改工作空间的企业项目。本示例CDM集群的虚拟私有云、子网以及安全组和RDS MySQ L实例保持一致。

数据湖探索 DLI
数据湖探索 DLI-迁移Elasticsearch数据至DLI:步骤二：数据迁移

步骤二：数据迁移配置CDM数据源连接。配置源端CSS的数据源连接。登录CDM控制台，选择“集群管理”，选择已创建的CDM集群，在操作列选择“作业管理”。在作业管理界面，选择“连接管理”，单击“新建连接”，连接器类型选择“ 云搜索服务 ”，单击“下一步”。图1 创建CSS数据源配置源端CSS的数据源连接，具体参数配置如下。详细参数配置可以参考CDM上配置CSS连接。表1 CSS数据源配置参数值名称自定义CSS数据源名称。例如当前配置为“source_css”。 Elasticsearch服务器列表单击输入框旁边的“选择”按钮，选择当前CSS集群即可自动关联出来Elasticsearch服务器列表。安全模式认证如果所需连接的CSS集群在创建时开启了“安全模式”，该参数需设置为“是”，否则设置为“否”。本示例选择为“否”。图2 CDM配置CSS数据源单击“保存”完成CSS数据源配置。配置目的端DLI的数据源连接。登录CDM控制台，选择“集群管理”，选择已创建的CDM集群，在操作列选择“作业管理”。在作业管理界面，选择“连接管理”，单击“新建连接”，连接器类型选择“数据湖探索（DLI）”，单击“下一步”。图3 创建DLI数据源连接配置目的端DLI数据源连接连接参数。具体参数配置可以参考在CDM上配置DLI连接。图4 配置DLI数据源连接参数配置完成后，单击“保存”完成DLI数据源配置。创建CDM迁移作业。登录CDM控制台，选择“集群管理”，选择已创建的CDM集群，在操作列选择“作业管理”。在“作业管理”界面，选择“表/文件迁移”，单击“新建作业”。在新建作业界面，配置当前作业配置信息，具体参数参考如下：图5 新建CDM作业作业配置作业名称：自定义数据迁移的作业名称。例如，当前定义为：css_to_dli。源端作业配置，具体参考如下：表2 源端作业配置参数名参数值源连接名称选择1.a中已创建的数据源名称。索引选择CSS集群中创建的Elasticsearch索引名。当前示例为CSS集群上创建索引并导入数据中创建的索引“my_test”。索引名称只能全部小写，不能有大写。类型 Elasticsearch的类型，类似关系数据库中的表名称。类型名称只能全部小写，不能有大写。当前示例为：“_doc”。更多其他参数说明可以参考：CDM配置CSS源端参数。目的端作业配置，具体参考如下：表3 目的端作业配置参数名参数值目的连接名称选择1.b已创建的DLI数据源连接。资源队列选择已创建的DLI SQL类型的队列。数据库名称选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表中创建的数据库名，即为“testdb”。表名选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表中创建的表名，即为“tablecss”。导入前清空数据选择导入前是否清空目的表的数据。当前示例选择为“否”。如果设置为是，任务启动前会清除目标表中数据。详细的参数配置可以参考：CDM配置DLI目的端参数。单击“下一步”，进入到字段映射界面，CDM会自动匹配源和目的字段。如果字段映射顺序不匹配，可通过拖拽字段调整。如果选择在目的端自动创建类型，这里还需要配置每个类型的字段类型、字段名称。 CDM支持迁移过程中转换字段内容，详细请参见字段转换。图6 字段映射单击“下一步”配置任务参数，一般情况下全部保持默认即可。该步骤用户可以配置如下可选功能：作业失败重试：如果作业执行失败，可选择是否自动重试，这里保持默认值“不重试”。作业分组：选择作业所属的分组，默认分组为“DEFAULT”。在CDM“作业管理”界面，支持作业分组显示、按组批量启动作业、按分组导出作业等操作。是否定时执行：如果需要配置作业定时自动执行，请参见配置定时任务。这里保持默认值“否”。抽取并发数：设置同时执行的抽取任务数。这里保持默认值“1”。是否写入脏数据：如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中，以便后面查看，可通过该参数配置，写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可，不记录脏数据。单击“保存并运行”，回到作业管理界面，在作业管理界面可查看作业执行进度和结果。图7 迁移作业进度和结果查询

数据湖探索 DLI
数据湖探索 DLI-迁移Elasticsearch数据至DLI:前提条件

前提条件已创建DLI的SQL队列。创建DLI队列的操作可以参考创建DLI队列。创建DLI队列时队列类型需要选择为“SQL队列”。已创建Elasticsearch类型的CSS集群。具体创建CSS集群的操作可以参考创建CSS集群。本示例创建的CSS集群版本为：7.6.2，集群为非安全集群。已创建CDM迁移集群。创建CDM集群的操作可以参考创建CDM集群。如果目标数据源为云下的数据库，则需要通过公网或者专线打通网络。通过公网互通时，需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。数据源为云上的CSS服务时，网络互通需满足如下条件： i. CDM集群与云上服务处于不同区域的情况下，需要通过公网或者专线打通网络。通过公网互通时，需确保CDM集群已绑定EIP，数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 ii. CDM集群与云上服务同区域情况下，同虚拟私有云、同子网、同安全组的不同实例默认网络互通；如果同虚拟私有云但是子网或安全组不同，还需配置路由规则及安全组规则。配置路由规则请参见如何配置路由规则章节，配置安全组规则请参见如何配置安全组规则章节。 iii. 此外，您还必须确保该云服务的实例与CDM集群所属的企业项目必须相同，如果不同，需要修改工作空间的企业项目。本示例CDM集群的虚拟私有云、子网以及安全组和创建的CSS集群保持一致。

数据湖探索 DLI
数据湖探索 DLI-迁移Kafka数据至DLI:步骤二：数据迁移

步骤二：数据迁移配置CDM数据源连接。配置源端MRS Kafka的数据源连接。登录CDM控制台，选择“集群管理”，选择已创建的CDM集群，在操作列选择“作业管理”。在作业管理界面，选择“连接管理”，单击“新建连接”，连接器类型选择“MRS Kafka”，单击“下一步”。图2 创建MRS Kafka数据源配置源端MRS Kafka的数据源连接，具体参数配置如下。表1 MRS Kafka数据源配置参数值名称自定义MRS Kafka数据源名称。例如当前配置为“source_kafka”。 Manager IP 单击输入框旁边的“选择”按钮，选择当前MRS Kafka集群即可自动关联出来Manager IP。用户名在2中创建的MRS Kafka用户名。密码对应MRS Kafka用户名的密码。认证类型如果当前MRS集群为普通集群则选择为SIMPLE，如果是MRS集群启用了Kerberos安全认证则选择为KERBEROS。本示例选择为：KERBEROS。更多参数的详细说明可以参考CDM上配置Kafka连接。图3 CDM配置MRS Kafka数据源连接单击“保存”完成MRS Kafka数据源配置。配置目的端DLI的数据源连接。登录CDM控制台，选择“集群管理”，选择已创建的CDM集群，在操作列选择“作业管理”。在作业管理界面，选择“连接管理”，单击“新建连接”，连接器类型选择“数据湖探索（DLI）”，单击“下一步”。图4 创建DLI数据源连接配置目的端DLI数据源连接连接参数。具体参数配置可以参考在CDM上配置DLI连接。图5 配置DLI数据源连接参数配置完成后，单击“保存”完成DLI数据源配置。创建CDM迁移作业。登录CDM控制台，选择“集群管理”，选择已创建的CDM集群，在操作列选择“作业管理”。在“作业管理”界面，选择“表/文件迁移”，单击“新建作业”。在新建作业界面，配置当前作业配置信息，具体参数参考如下：图6 新建CDM作业作业配置作业名称：自定义数据迁移的作业名称。例如，当前定义为：test。源端作业配置，具体参考如下：表2 源端作业配置参数名参数值源连接名称选择1.a中已创建的数据源名称。 Topics 选择MRS Kafka待迁移的Topic名称，支持单个或多个Topic。当前示例为：kafkatopic。数据格式根据实际情况选择当前消息格式。本示例选择为：CDC（DRS_JSON），以DRS_JSON格式解析源数据。偏移量参数从Kafka拉取数据时的初始偏移量。本示例当前选择为：最新。最新：最大偏移量，即拉取最新的数据。最早：最小偏移量，即拉取最早的数据。已提交：拉取已提交的数据。时间范围：拉取时间范围内的数据。是否持久运行用户自定义是否永久运行。当前示例选择为：否。拉取数据超时时间持续拉取数据多长时间超时，单位分钟。当前示例配置为：15。等待时间可选参数，超出等待时间还是无法读取到数据，则不再读取数据，单位秒。当前示例不配置该参数。消费组ID 用户指定消费组ID。当前使用MRS Kafka默认的消息组ID：“example-group1”。其他参数的详细配置说明可以参考：CDM配置Kafka源端参数。目的端作业配置，具体参考如下：表3 目的端作业配置参数名参数值目的连接名称选择1.b已创建的DLI数据源连接。资源队列选择已创建的DLI SQL类型的队列。数据库名称选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表中创建的数据库名，即为“testdb”。表名选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表中创建的表名，即为“testdlitable”。导入前清空数据选择导入前是否清空目的表的数据。当前示例选择为“否”。如果设置为是，任务启动前会清除目标表中数据。详细的参数配置可以参考：CDM配置DLI目的端参数。单击“下一步”，进入到字段映射界面，CDM会自动匹配源和目的字段。如果字段映射顺序不匹配，可通过拖拽字段调整。如果选择在目的端自动创建类型，这里还需要配置每个类型的字段类型、字段名称。 CDM支持迁移过程中转换字段内容，详细请参见字段转换。图7 字段映射单击“下一步”配置任务参数，一般情况下全部保持默认即可。该步骤用户可以配置如下可选功能：作业失败重试：如果作业执行失败，可选择是否自动重试，这里保持默认值“不重试”。作业分组：选择作业所属的分组，默认分组为“DEFAULT”。在CDM“作业管理”界面，支持作业分组显示、按组批量启动作业、按分组导出作业等操作。是否定时执行：如果需要配置作业定时自动执行，请参见配置定时任务。这里保持默认值“否”。抽取并发数：设置同时执行的抽取任务数。这里保持默认值“1”。是否写入脏数据：如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中，以便后面查看，可通过该参数配置，写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可，不记录脏数据。单击“保存并运行”，回到作业管理界面，在作业管理界面可查看作业执行进度和结果。图8 迁移作业进度和结果查询

数据湖探索 DLI

数据湖探索 DLI

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

云服务器内容精选

数据湖探索 DLI

7*24

备案

专业服务

退订

建议反馈

售前咨询热线