检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark作业下载OBS对象、读写OBS外表。 访问和使用OBS的权限策略 允许DLI在访问DEW获取数据访问凭证 自定义 DLI 作业使用DEW-CSMS凭证管理能力。 使用DEW加密功能的权限 允许访问DLI Catalog元数据 自定义 DLI 访问DLI元数据。 访问DLI Catalog元数据的权限
DLI支持原生Spark的DataSource能力,并在其基础上进行了扩展,能够通过SQL语句或者Spark作业访问其他数据存储服务并导入、查询、分析处理其中的数据,目前支持的DLI跨源访问服务有:表格存储服务CloudTable,云搜索服务CSS,分布式缓存服务DCS,文档数据库服务DDS
泄露以及权限失控带来的业务风险。 本例以获取访问OBS的AKSK为例介绍Spark Jar使用DEW获取访问凭证读写OBS的操作指导。 前提条件 已在DEW服务创建通用凭证,并存入凭据值。具体操作请参考:创建通用凭据。 已创建DLI访问DEW的委托并完成委托授权。该委托需具备以下权限:
险。 本节操作介绍Flink Opensource SQL场景使用DEW管理和访问凭据的操作指导。 前提条件 已在DEW服务创建通用凭证,并存入凭据值。具体操作请参考:创建通用凭据。 已创建DLI访问DEW的委托并完成委托授权。该委托需具备以下权限: DEW中的查询凭据的版本与凭
泄露以及权限失控带来的业务风险。 本例以获取访问OBS的AKSK为例介绍Flink Jar使用DEW获取访问凭证读写OBS的操作指导。 前提条件 已在DEW服务创建通用凭证,并存入凭据值。具体操作请参考:创建通用凭据。 已创建DLI访问DEW的委托并完成委托授权。该委托需具备以下权限:
使用Spark作业跨源访问数据源 概述 对接CSS 对接DWS 对接HBase 对接OpenTSDB 对接RDS 对接Redis 对接Mongo 父主题: Spark Jar作业开发指南
对接HBase MRS配置 scala样例代码 pyspark样例代码 java样例代码 故障处理 父主题: 使用Spark作业跨源访问数据源
对接CSS CSS安全集群配置 scala样例代码 pyspark样例代码 java样例代码 父主题: 使用Spark作业跨源访问数据源
使用DLI的跨源认证管理数据源访问凭证 跨源认证概述 创建CSS类型跨源认证 创建Kerberos跨源认证 创建Kafka_SSL类型跨源认证 创建Password类型跨源认证 跨源认证权限管理 父主题: 配置DLI读写外部数据源数据
上传“安全证书”的OBS路径。即步骤2的OBS桶地址。 图1 创建认证信息-CSS 访问CSS的表。 跨源认证创建成功后,在创建访问CSS的表时只需关联跨源认证即可安全访问数据源。 例如在使用Spark SQL来创建访问CSS的表时使用es.certificate.name字段配置跨源认证信息名称,配置连接安全CSS集群。
获取到AK、SK、SecurityToken后,请参考如何使用凭据管理服务替换硬编码的数据库账号密码查询凭据。 约束限制 仅支持Spark3.3.1版本(Spark通用队列场景)使用委托授权访问临时凭证: 在创建作业时,请配置作业使用Spark3.3.1版本 已在作业中配置允许DLI访问DEW的委托信息。spark
Flink Jar作业访问DWS启动异常,提示客户端连接数太多错误 问题描述 提交Flink Jar作业访问DWS数据仓库服务时,提示启动失败,作业日志报如下错误信息。 FATAL: Already too many clients, active/non-active/reserved:
对接DWS scala样例代码 pyspark样例代码 java样例代码 父主题: 使用Spark作业跨源访问数据源
跨源访问MRS HBase,连接超时,日志未打印错误怎么办? 用户在跨源连接中没有添加集群主机信息,导致KRB认证失败,故连接超时,日志也未打印错误。 建议您重新配置主机信息后再重试访问MRS HBase。 在“增强型跨源”页面,单击该连接“操作”列中的“修改主机信息”,在弹出的对话框中,填写主机信息。
对接Redis scala样例代码 pyspark样例代码 java样例代码 故障处理 父主题: 使用Spark作业跨源访问数据源
builder().appName("datasource-rds").getOrCreate(); 通过SQL API 访问 创建DLI跨源访问RDS的关联表,填写连接参数。 1 2 3 4 5 6 7 sparkSession.sql( "CREATE TABLE IF NOT
MRS配置 DLI跨源连接中配置MRS主机信息 在DLI管理控制台上已完成创建跨源连接。具体操作请参考《数据湖探索用户指南》。 对接MRS HBase需要在DLI队列的host文件中添加MRS集群节点的/etc/hosts信息。 详细操作请参考《数据湖探索用户指南》中的“修改主机信息”章节描述。
故障处理 问题1:运行Spark作业,作业运行失败,作业日志中提示java server connection或container启动失败 问题现象 运行Spark作业,作业运行失败,作业日志中提示java server connection或container启动失败。 解决方案
Key密码 keystore中的私钥密码。 图1 创建认证信息-Kafka_SSL 访问开启SASL_SSL认证的Kafka。 跨源认证创建成功后,在创建访问数据源时只需关联跨源认证即可安全访问数据源。 建表时关联跨源认证的字段请参考表3。 表3 建表时与Kafka_SSL类型跨源认证关联的字段
MRS安全集群已开启Kerberos认证。 操作步骤 下载数据源的认证凭证。 登录MRS Manager界面。 选择“系统 > 权限 > 用户”。 单击“更多 > 下载认证凭据”,保存后解压得到用户的keytab文件与krb5.conf文件。 上传认证凭证到OBS桶。 关于如何创建OBS桶并上传数据,请参考《对象存储服务快速入门》。