数据治理中心 DATAARTS STUDIO-配置HDFS连接:Apache HDFS

时间:2024-06-18 20:26:35

Apache HDFS

连接Apache Hadoop上的HDFS数据源时,相关参数如表3所示。

表3 Apache HDFS连接参数

参数名

说明

取值样例

名称

连接的名称,根据连接的数据源类型,用户可自定义便于记忆、区分的连接名。

hadoop_hdfs_link

URI

表示NameNode URI地址。可以填写为:hdfs://namenode实例的ip:8020。

hdfs://IP:8020

认证类型

访问集群的认证类型:
  • SIMPLE:非安全模式选择Simple鉴权。
  • KERBEROS:安全模式选择Kerberos鉴权。

KERBEROS

运行模式

选择HDFS连接的运行模式:
  • EMBEDDED:连接实例与 CDM 运行在一起,该模式性能较好。
  • STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源( MRS 、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式。

    说明:STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。

STANDALONE

IP与主机名映射

运行模式选择“EMBEDDED”“STANDALONE”时,该参数有效。

如果HDFS配置文件使用主机名,需要配置IP与主机的映射。格式:IP与主机名之间使用空格分隔,多对映射使用分号或回车换行分隔。

10.1.6.9 hostname01

10.2.7.9 hostname02

Agent

Agent功能待下线,无需配置。

-

是否使用集群配置

您可以通过使用集群配置,简化Hadoop连接参数配置。

集群配置名

当“是否使用集群配置”为“是”或“认证类型”为“KERBEROS”时,此参数有效。此参数用于选择用户已经创建好的集群配置。

集群配置的创建方法请参见管理集群配置

hdfs_01

support.huaweicloud.com/usermanual-dataartsstudio/dataartsstudio_01_0040.html