检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
前提条件 配置前,请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统,并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件系统,提供毫秒级别访问时延,以及TB/s级
target”下名为“MyUDTF-1.0-SNAPSHOT.jar”。 图10 生成Jar包 登录OBS控制台,将生成的Jar包文件上传到OBS路径下。 Jar包文件上传的OBS桶所在的区域需与DLI的队列区域相同,不可跨区域执行操作。 (可选)可以将Jar包文件上传到DLI的程序包管理中,方便后续统一管理。
阻塞Clean,如果没有Compaction操作来产生新版本的Parquet文件,那旧版本的文件就不能被Clean清理,增加存储压力。 提交Spark jar作业时,CPU与内存比例为1:4~1:8。 Compaction作业是将存量的parquet文件内的数据与新增的log中的数据进行合并,需要消耗较高
建议使用临时AK/SK,获取方式可参见统一身份认证服务_获取临时AK/SK。 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 表1 DLI获取访问凭据相关开发指南 类型 操作指导 说明 Flink作业场景 Flink
UDAF\target”下名为“MyUDAF-1.0-SNAPSHOT.jar”。 登录OBS控制台,将生成的Jar包文件上传到OBS路径下。 Jar包文件上传的OBS桶所在的区域需与DLI的队列区域相同,不可跨区域执行操作。 (可选)可以将Jar包文件上传到DLI的程序包管理中,方便后续统一管理。
新增访问密钥”,如图5所示。 图5 单击新增访问密钥 单击“确定”,根据浏览器提示,保存密钥文件。密钥文件会直接保存到浏览器默认的下载文件夹中。打开名称为“credentials.csv”的文件,即可查看访问密钥(Access Key Id和Secret Access Key)。 说明:
是全表读取,或者按照对应业务ID过滤。 基于以上考虑,维度表采用天分区会导致文件数过多,而且是全表读取,会导致所需要的文件读取Task过多,采用大颗粒度的日期分区,例如年分区,可以有效降低分区个数和文件数量;对于增量不是很大的维度表,也可以采用非分区表。如果维度表的总数据量很大或
按照如下方式查看taskmanager.out文件中的数据结果: 登录DLI管理控制台,选择“作业管理 > Flink作业”。 单击对应的Flink作业名称,选择“运行日志”,单击“OBS桶”,根据作业运行的日期,找到对应日志的文件夹。 进入对应日期的文件夹后,找到名字中包含“taskmanager”的文件夹进入,下载获取taskmanager
OBS桶文件配置 OBS控制台 如果是创建OBS表,则需要上传文件数据到OBS桶下。 配置Spark创建表的元数据信息的存储路径。该文件夹路径用来存储Spark创建表的元数据信息“spark.sql.warehouse.dir”。 3 新建Maven工程,配置pom文件 IntelliJ
SDK概述下载样例代码。 kind:资源包类型,当前支持包类型分别为: jar:用户jar文件 pyfile:用户Python文件 file:用户文件 modelfile:用户AI模型文件 paths:对应资源包的OBS路径,参数构成为:{bucketName}.{obs域名}/
径是文件将导致导入数据失败。 当OBS的目录下有同名文件夹和文件时,数据导入指向该路径会优先指向文件而非文件夹。 说明: 路径同时支持文件和文件夹。 obs://DLI/sampledata.csv 表头:无/有 当“文件格式”为“CSV”时该参数有效。设置导入数据源是否含表头。
String krb5配置文件obs路径。 keytab String keytab配置文件obs路径。 truststore_location String truststore配置文件obs路径。 keystore_location String keystore配置文件obs路径。 owner
按照如下方式查看taskmanager.out文件中的数据结果: 登录DLI管理控制台,选择“作业管理 > Flink作业”。 单击对应的Flink作业名称,选择“运行日志”,单击“OBS桶”,根据作业运行的日期,找到对应日志的文件夹。 进入对应日期的文件夹后,找到名字中包含“taskmanager”的文件夹进入,下载获取
String krb5配置文件obs路径。 keytab String keytab配置文件obs路径。 truststore_location String truststore配置文件obs路径。 keystore_location String keystore配置文件obs路径。 owner
导入OBS表时,创建OBS表时指定的路径必须是文件夹,若建表路径是文件将导致导入数据失败。 仅支持导入位于OBS路径上的原始数据。 不建议对同一张表并发导入数据,因为有一定概率发生并发冲突,导致导入失败。 导入数据时只能指定一个路径,路径中不能包含逗号。 当OBS桶目录下有文件夹和文件同名时,导入数据会优先指向该路径下的文件而非文件夹。
按照如下方式查看taskmanager.out文件中的数据结果: 登录DLI管理控制台,选择“作业管理 > Flink作业”。 单击对应的Flink作业名称,选择“运行日志”,单击“OBS桶”,根据作业运行的日期,找到对应日志的文件夹。 进入对应日期的文件夹后,找到名字中包含“taskmanager”的文件夹进入,下载获取
按照如下方式查看taskmanager.out文件中的数据结果: 登录DLI管理控制台,选择“作业管理 > Flink作业”。 单击对应的Flink作业名称,选择“运行日志”,单击“OBS桶”,根据作业运行的日期,找到对应日志的文件夹。 进入对应日期的文件夹后,找到名字中包含“taskmanager”的文件夹进入,下载获取
使用限制 创建含有复杂数据类型字段的表时,该表存储格式不支持CSV(txt)。 如果表中含有复杂数据类型字段时,该表不支持CSV(txt)格式的文件数据导入。 MAP数据类型建表必须指定schema,且不支持date、short、timestamp数据类型。 对于JSON格式OBS表,MAP的键类型只支持STRING类型。
单击所建桶“obs1”,进入“对象”页面。 勾选左侧列表中的“对象”,选择“上传对象”,将需要上传的文件“sampledata.csv”上传到指定目录,单击“上传”。 “sampledata.csv”样例文件可以通过新建“sampledata.txt”,复制如下英文逗号分隔的文本内容,再另存为“sampledata
跨源认证简介及操作方法请参考跨源认证简介。 前提条件 创建DLI表关联HBase之前需要创建跨源连接。管理控制台操作请参考增强型跨源连接。 请确保在DLI队列host文件中添加MRS集群master节点的“/etc/hosts”信息。 如何添加IP域名映射,请参见《数据湖探索用户指南》中增强型跨源连接章节。