检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DataArts Studio资源环境准备 购买DataArts Studio实例 在使用DataArts Studio提交DLI作业前,需要先购买DataArts Studio实例。 具体操作请参考购买DataArts Studio基础包。 进入DataArts Studio实例空间 购买完成DataArts
Kafka未开启Kerberos认证,仅开启了SSL认证时,创建Kafka_SSL类型的认证。建表时通过ssl_auth_name关联跨源认证。 MRS Kafka未开启Kerberos认证,开启了SASL认证和SSL认证时,创建Kafka_SSL类型的认证。建表时通过ssl_auth_name关联跨源认证。
图2 获取kafka sink 操作步骤 从Kafka实例的基本信息页面下载SSL证书,解压后将其中的clinet.jks文件上传到OBS。 图3 下载SSL证书 在DLI控制台,打开“数据管理 > 程序包管理”,单击“创建”,创建clinet.jks对应的程序包。 主要参数的填写说明:
data_type 格式 无。 说明 数据类型,当前只支持原生数据类型。 父主题: 标示符
在DataArts Studio上运行DLI SQL脚本,执行结果报org.apache.hadoop.fs.obs.OBSIOException错误 问题现象 在DataArts Studio上运行DLI SQL脚本,执行结果的运行日志显示语句执行失败,错误信息为: DLI.0999:
SQL日志。 操作步骤 在DataArts Studio控制台获取DataArts Studio执行DLI作业的job id。 图1 查看日志 图2 查找job id 在DLI控制台,选择“作业管理”>“SQL作业”。 在SQL作业管理页面,输入对应的job id,找到对应的作业。
Spark作业是否支持定时周期任务作业 DLI Spark不支持作业调度,用户可以通过其他服务,例如数据湖管理治理中心DataArts Studio服务进行调度,或者通过API/SDK等方式对作业进行自定义调度 。 使用DataArts Studio服务进行作业开发请参考《数据治理中心用户指南》。 Spark SQL语法创建表时是否支持定义主键
it with Build Tools for Visual Studio ”,可能是由于缺少C++编译器导致的报错,建议您根据提示信息安装相应版本的Visual Studio编译器解决。部分操作系统Visual Studio安装后需重启才可以生效。 父主题: Python SDK环境配置
跨源RDS表,执行insert overwrite提示Incorrect string value错误怎么办? 问题现象 客户在数据治理中心DataArts Studio创建DLI的跨源RDS表,执行insert overwrite语句向RDS写入数据报错:DLI.0999: BatchUpdateException:
afka_SSL类型的认证。建表时通过ssl_auth_name关联跨源认证。 MRS Kafka未开启Kerberos认证,开启了SASL认证和SSL认证时,创建Kafka_SSL类型的认证。建表时通过ssl_auth_name关联跨源认证。 Kerberos类型跨源认证支持连接的数据源
若OpenTSDB上不存在metric,查询对应的DLI表会报错。 若OpenTSDB开了安全模式,则访问时,需要设置conf:dli.sql.mrs.opentsdb.ssl.enabled=true 语法格式 1 SELECT * FROM table_name LIMIT number; 关键字 LIMI
解决方案 重新创建Spark作业,创建作业时需要在“Spark参数(--conf)”中添加配置:“spark.sql.mrs.opentsdb.ssl.enabled=true”。 父主题: 对接OpenTSDB
15及以上版本的跨源访问场景推荐使用数据加密服务DEW来存储数据源的认证信息,为您解决数据安全、密钥安全、密钥管理复杂等问题。具体操作请参考使用DEW管理数据源访问凭证。 跨源认证用于管理访问指定数据源的认证信息。配置跨源认证后,无需在作业中重复配置数据源认证信息,提高数据源认证的安全性,便于DLI安全访问数据源。
service.ssl.enabled 打开blob通道SSL开关。 否 true taskmanager.data.ssl.enable 打开taskmanager之间通信的SSL开关。 否 true security.ssl.algorithms 设置SSL加密的算法。 否
Insert data into the DLI data table sparkSession.sql("insert into css_table values(18, 'John'),(28, 'Bob')"); // Read data from
Data masking函数 数据脱敏(Data masking) 指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。 mask_first_n(string str[, int n]) →varchar 描述:返回str的屏蔽版本,前n个值被屏蔽。大写字母
4或以上集群版本,创建CSS安全集群,并下载安全集群证书(CloudSearchService.cer)。 登录云搜索服务控制台,单击“集群管理”,选择需要建立跨源连接的集群,如图1所示: 图1 CSS集群管理 单击“安全模式”中的“下载证书”下载安全证书。 使用keytool工具生成keystore和truststore文件。
es.net.ssl 连接安全CSS集群,默认值为“false”。 es.net.ssl.keystore.location 安全CSS集群的证书,生成的keystore文件在OBS上的地址。 es.net.ssl.keystore.pass 安全CSS集群的证书,生成的keystore文件时的密码。
# Insert data into the DLI data table sparkSession.sql("insert into css_table values(3,'tom')") # Read data from DLI data table
"area_id":"330106"} 示例(适用于Kafka集群已开启SASL_SSL场景) 示例1:DMS集群使用SASL_SSL认证方式。 创建DMS的kafka集群,开启SASL_SSL,并下载SSL证书,将下载的证书client.jks上传到OBS桶中。 CREATE TABLE ordersSource