数据治理中心 DATAARTS STUDIO-Apache Hive数据连接参数说明

时间:2024-09-27 17:58:45

Apache Hive数据连接参数说明

表1 Apache Hive数据连接

参数

是否必选

说明

数据连接类型

Apache Hive连接固定选择为Apache Hive。

数据连接名称

数据连接的名称,只能包含字母、数字、下划线和中划线,且长度不超过100个字符。

标签

标识数据连接的属性。设置标签后,便于统一管理。
说明:

标签的名称,只能包含中文、英文字母、数字和下划线,不能以下划线开头,且长度不能超过100个字符。

适用组件

选择此连接适用的组件。勾选组件后,才能在相应组件内使用本连接。

说明:
  • 当开启数据集成作业特性后,可勾选数据集成组件,勾选后在数据开发组件创建集成作业时支持选择本数据连接。
  • 离线处理集成作业功能当前需申请白名单后才能使用。如需使用该特性,请联系客服或技术支持人员

基础与网络连通配置

是否使用集群配置

此参数用于选择用户已经创建好的集群配置。

您可以通过使用集群配置,简化Hadoop连接参数配置。

URI

使用集群配置为否时,是必选项。

NameNode URI地址。例如:hdfs://nn1_example.com/

Hive元数据地址

使用集群配置为否时,是必选项。

设置Hive元数据地址,参考 hive.metastore.uris配置项。例如:thrift://host-192-168-1-212:9083

IP与主机名映射

使用集群配置为否时,是必选项。

如果Hadoop配置文件使用主机名,需要配置IP与主机的映射。格式:IP与主机名之间使用空格分隔,多对映射使用分号或回车换行分隔。

KMS密钥

使用集群配置为是时,是必选项。

通过KMS加解密数据源认证信息,选择KMS中的任一默认密钥或自定义密钥即可。
说明:

第一次通过 DataArts Studio 或KPS使用KMS加密时,会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息,请参见什么是默认密钥

绑定Agent

使用集群配置为是时,是必选项。

DataArts无法直接与非全托管服务进行连接,需要提供DataArts Studio与非全托管服务通信的代理。 CDM 集群可以提供通信代理服务,请选择一个CDM集群,如果没有可用的CDM集群,请先通过数据集成增量包进行创建。

说明:

CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。

数据集成配置

Hive版本

HIVE_3_X

适用组件勾选数据集成后,呈现此参数。

Hive的版本。根据服务端Hive版本设置。

说明:

HIVE_3_X支持Hive服务端版本为3.x的连接,HIVE_2_X支持Hive服务端版本为2.x的连接。使用不匹配的连接版本,测试连接有可能正常,也可能会出现查询库表为空,或者作业失败等不正常场景。

属性配置

hive.storeFormat=textfile

适用组件勾选数据集成后,呈现此参数。

可选参数,单击“添加”可增加多个指定数据源的JDBC连接器的属性,参考对应数据库的JDBC连接器说明文档进行配置。

常见配置举例如下:
  • connectTimeout=360000socketTimeout=360000:迁移数据量较大、或通过查询语句检索全表时,会由于连接超时导致迁移失败。此时可自定义连接超时时间与socket超时时间(单位ms),避免超时导致失败。
  • useCursorFetch=false:CDM作业默认打开了JDBC连接器与关系型数据库通信使用二进制协议开关,即useCursorFetch=true。部分第三方可能存在兼容问题导致迁移时间转换出错,可以关闭此开关;开源MySQL数据库支持useCursorFetch参数,无需对此参数进行设置。

Hive JDBC连接串

连接Hive JDBC的url。默认使用匿名用户连接,如需指定用户,请在高级属性中增加hadoop.user.name配置。

例如:SIMPLE:jdbc:hive2://example:10000; KERBEROS:jdbc:hive2://example:10000;principal=${Principle}。

数据源认证及其他功能配置

认证类型

认证类型:
  • SIMPLE:非安全模式选择Simple鉴权。
  • KERBEROS:安全模式选择Kerberos鉴权。

开启ldap

当Apache Hive对接外部LDAP开启了LDAP认证时,连接Hive时需要使用LDAP账号与密码进行认证,此时必须开启此参数,否则会连接失败。

ldap用户名

“开启ldap”参数选择为“是”时,此参数是必选项。

填写为Apache Hive开启LDAP认证时配置的用户名。

ldap密码

“开启ldap”参数选择为“是”时,此参数是必选项。

填写为Apache Hive开启LDAP认证时配置的密码。

support.huaweicloud.com/usermanual-dataartsstudio/dataartsstudio_01_1514.html