数据治理中心 DATAARTS STUDIO-Apache HDFS数据连接参数说明

时间:2024-12-04 08:59:47

Apache HDFS数据连接参数说明

表1 Apache HDFS连接

参数

是否必选

说明

数据连接类型

Apache HDFS连接固定选择为Apache HDFS。

数据连接名称

数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。

标签

标识数据连接的属性。设置标签后,便于统一管理。
说明:

标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。

适用组件

选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。

说明:
  • 当开启数据集成作业特性后,可勾选数据集成组件,勾选后在数据开发组件创建集成作业时支持选择本数据连接。
  • 离线处理集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员

基础与网络连通配置

是否使用集群配置

此参数用于选择用户已经创建好的集群配置。

您可以通过使用集群配置,简化Hadoop连接参数配置。默认:关闭。

URI

是否使用集群配置开关打开时显示该参数。

表示NameNode URI地址。可以填写为:hdfs://namenode实例的ip:8020。

IP与主机名映射

是否使用集群配置开关打开时显示该参数。

运行模式选择“EMBEDDED”“STANDALONE”时,该参数有效。

如果HDFS配置文件使用主机名,需要配置IP与主机的映射。格式:IP与主机名之间使用空格分隔,多对映射使用分号或回车换行分隔。

KMS密钥

“数据集成”参数开启时,呈现此参数。

通过KMS加密和解密用户密码和密钥对的密码,选择KMS中已创建的密钥。

绑定Agent

“数据集成”参数开启时,呈现此参数。

通过代理连接时,需要选择 CDM 集群,CDM集群提供Agent。此处支持最多选择3个Agent,以提升可靠性。

数据集成配置

配置文件路径

“是否使用集群配置”参数开启时,呈现此参数。集群配置文件的OBS存放路径。

keytab文件路径

认证类型为KERBEROS时显示该参数。

配置keytab文件的OBS存放路径。

Principal名称

认证类型为KERBEROS时显示该参数。

Kerberos认证用户名。kerberos集群时,需要上传相应的keytab文件。

属性配置

“数据集成”参数开启时,呈现此参数。可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。

常见配置举例如下:
  • connectTimeout=360000socketTimeout=360000:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位ms),避免超时导致失败。
  • useCursorFetch=false:CDM作业默认打开了JDBC连接器与关系型数据库通信使用二进制协议开关,即useCursorFetch=true。部分第三方可能存在兼容问题导致迁移时间转换出错,可以关闭此开关;开源MySQL数据库支持useCursorFetch参数,无需对此参数进行设置。

数据源认证及其他功能配置

认证类型

访问集群的认证类型:
  • SIMPLE:非安全模式选择Simple鉴权。
  • KERBEROS:安全模式选择Kerberos鉴权。

运行模式

选择HDFS连接的运行模式:
  • EMBEDDED:连接实例与CDM运行在一起,该模式性能较好。
  • STANDALONE:连接实例运行在独立进程。如果CDM需要对接多个Hadoop数据源( MRS 、Hadoop或CloudTable),并且既有KERBEROS认证模式又有SIMPLE认证模式,只能使用STANDALONE模式或者配置不同的Agent。
    说明:

    STANDALONE模式主要是用来解决版本冲突问题的运行模式。当同一种数据连接的源端或者目的端连接器的版本不一致时,存在jar包冲突的情况,这时需要将源端或目的端放在STANDALONE进程里,防止冲突导致迁移失败。

support.huaweicloud.com/usermanual-dataartsstudio/dataartsstudio_01_1318.html