检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SDK概述下载样例代码。 kind:资源包类型,当前支持包类型分别为: jar:用户jar文件 pyfile:用户Python文件 file:用户文件 modelfile:用户AI模型文件 paths:对应资源包的OBS路径,参数构成为:{bucketName}.{obs域名}/
指南》。 对接MRS HBase需要在DLI队列的host文件中添加MRS集群节点的/etc/hosts信息。 详细操作请参考《数据湖探索用户指南》中的“修改主机信息”章节描述。 开启Kerberos认证时的相关配置文件 参考《从零开始使用Kerberos认证集群》中的“创建安全
单击对应的Flink作业名称,选择“运行日志”,单击“OBS桶”,根据作业运行的日期,找到对应日志的文件夹。 进入对应日期的文件夹后,找到名字中包含“taskmanager”的文件夹进入,下载获取taskmanager.out文件查看结果日志。 查询结果参考如下: +I(test-flink,test) +I(test-flink
单击对应的Flink作业名称,选择“运行日志”,单击“OBS桶”,根据作业运行的日期,找到对应日志的文件夹。 进入对应日期的文件夹后,找到名字中包含“taskmanager”的文件夹进入,下载获取taskmanager.out文件查看结果日志。 查询结果参考如下: +I(test-flink,test) +I(test-flink
步骤。 View只能通过SQL语句进行创建,不能通过“创建表”页面进行创建。 注意事项 当OBS的目录下有同名文件夹和文件时,创建OBS表指向该路径会优先指向文件而非文件夹。 创建数据库和表时,有权限控制,需要对其他用户授权,其他用户才可查看该用户新建的数据库和表。具体请参考常用操作与系统权限关系。
径是文件将导致导入数据失败。 当OBS的目录下有同名文件夹和文件时,数据导入指向该路径会优先指向文件而非文件夹。 说明: 路径同时支持文件和文件夹。 obs://DLI/sampledata.csv 表头:无/有 当“文件格式”为“CSV”时该参数有效。设置导入数据源是否含表头。
在DLI管理控制台上已完成创建跨源连接并绑定队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 构造依赖信息,创建SparkSession 导入依赖 涉及到的mvn依赖库 1 2 3 4
法可以参考使用Hive语法创建OBS表。 回收站数据自动清理需要在OBS并行文件系统的桶上配置回收站数据的生命周期规则。具体步骤参考如下: 在OBS服务控制台页面左侧选择“并行文件系统”,单击对应的文件系统名称。 在“基础配置”下单击“生命周期规则”,创建或者编辑生命周期规则。 图1
使用限制 创建含有复杂数据类型字段的表时,该表存储格式不支持CSV(txt)。 如果表中含有复杂数据类型字段时,该表不支持CSV(txt)格式的文件数据导入。 MAP数据类型建表必须指定schema,且不支持date、short、timestamp数据类型。 对于JSON格式OBS表,MAP的键类型只支持STRING类型。
单击所建桶“obs1”,进入“对象”页面。 勾选左侧列表中的“对象”,选择“上传对象”,将需要上传的文件“sampledata.csv”上传到指定目录,单击“上传”。 “sampledata.csv”样例文件可以通过新建“sampledata.txt”,复制如下英文逗号分隔的文本内容,再另存为“sampledata
跨源认证简介及操作方法请参考跨源认证简介。 前提条件 创建DLI表关联HBase之前需要创建跨源连接。管理控制台操作请参考增强型跨源连接。 请确保在DLI队列host文件中添加MRS集群master节点的“/etc/hosts”信息。 如何添加IP域名映射,请参见《数据湖探索用户指南》中增强型跨源连接章节。
在DLI管理控制台上已完成创建跨源连接并绑定队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 操作前准备 import相关依赖包 1 2 3 from __future__ import
在DLI管理控制台上已完成创建跨源连接并绑定队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 操作前准备 导入依赖 涉及到的mvn依赖库 1 2 3 4 5 <dependency>
为Parquet数据。 方案优势 提升查询性能 如果您在HDFS上拥有基于文本的数据文件或者表,而且正在使用Spark SQL对数据执行查询操作,那么推荐将文本数据文件转换为Parquet数据文件,转换需要时间,但查询性能的提升在某些情况下可能达到约30倍或更高。 节省存储空间
UNION 功能描述 UNION返回多个查询结果的并集。 语法格式 1 select_statement UNION [ALL] select_statement; 关键字 UNION:集合运算,以一定条件将表首尾相接,其中每一个SELECT语句返回的列数必须相同,列的类型和列名不一定要相同。
aom-internal-access.{regionId}.xxxxx.com:8xx3/v1/{projectId}/{prometheusId}/push metrics.reporter.remote.report-all-metrics 否 false Boolean false 是否
将写好的python代码文件上传至DLI中。 控制台操作请参考《数据湖探索用户指南》。API操作请参考《数据湖探索API参考》>《上传资源包》。 如果MRS集群开启了Kerberos认证,创建Spark作业时需要将krb5.conf和user.keytab文件添加到作业的其他依赖文件中,未开启
在DLI管理控制台上已完成创建跨源连接。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 代码实现详解 import相关依赖包 1 2 3 from __future__ import
数据目录(Catalog)是元数据管理对象,它可以包含多个数据库。 在DLI数据目录库下创建数据库和表请参考在DLI控制台创建数据库和表。 数据库 数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库通常用于存储、检索和管理结构化数据,由多个数据表组成,这些数据表通过键和索引相互关联。
定包年/包月队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 构造依赖信息,创建SparkSession 导入依赖。 涉及到mvn依赖 1 2 3 4 5