检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
理: 持续大量新增数据的维度表 方法一:预留桶数,如使用非分区表则需通过预估较长一段时间内的数据增量来预先增加桶数,缺点是随着数据的增长,文件依然会持续膨胀; 方法二:大粒度分区(推荐),如果使用分区表则需要根据数据增长情况来计算,例如使用年分区,这种方式相对麻烦些但是多年后表无需重新导入。
按照如下方式查看taskmanager.out文件中的数据结果: 登录DLI管理控制台,选择“作业管理 > Flink作业”。 单击对应的Flink作业名称,选择“运行日志”,单击“OBS桶”,根据作业运行的日期,找到对应日志的文件夹。 进入对应日期的文件夹后,找到名字中包含“taskmanager”的文件夹进入,下载获取taskmanager
默认值 multiLevelDirEnable 否 是否迭代查询子目录中的数据。当配置为true时,查询该表时会迭代读取该表路径中所有文件,包含子目录中的文件。 false compression 否 指定压缩格式。一般为parquet格式时指定该参数,推荐使用'zstd'压缩格式。 -
OVERWRITE、TRUNCATE TABLE)时是否清除相关数据: "auto.purge"='true'时,清除元数据和数据文件。 "auto.purge"='false'时,仅清除元数据,数据文件会移入OBS回收站。默认值为“false”,且不建议用户修改此属性,避免数据删除后无法恢复。 CREATE
createdAt 建表时间戳 lastModified 最后一次修改的时间戳 partitionColumns 分区列 numFiles 表的最新版本中的文件个数 sizeInBytes 表的最新快照的大小(以字节为单位) properties 为此表设置的所有属性 minReaderVersion
导出CSV文件时保留特殊字符的引号 说明: Spark2.4.x: 在Spark 2.4.x版本中,导出CSV文件时,如果字段值中包含特殊字符如换行符(\n)和回车符(\r),并且这些特殊字符被引号(例如双引号")包围,Spark会自动处理这些引号,在导出的CSV文件中舍弃这些引号。
批作业SQL语法的常用配置项。 表1 常用配置项 名称 默认值 描述 spark.sql.files.maxRecordsPerFile 0 要写入单个文件的最大记录数。如果该值为零或为负,则没有限制。 spark.sql.shuffle.partitions 200 为连接或聚合过滤数据时使用的默认分区数。
单击对应的Flink作业名称,选择“运行日志”,单击“OBS桶”,根据作业运行的日期,找到对应日志的文件夹。 进入对应日期的文件夹后,找到名字中包含“taskmanager”的文件夹进入,下载获取taskmanager.out文件查看结果日志。 数据结果参考如下: +I(202103251202020001
> 用户管理 ,单击用户名后的”更多 > 下载认证凭据”。 根据用户凭据生成相应的truststore.jks文件,并将用户凭据以及truststore.jks文件传入OBS中。 具体方式请参考客户端SSL加密功能使用说明。 若运行作业提示“Message stream modified
Notebook相关操作请参考JupyterLab简介及常用操作。 Notebook中的数据上传请参考上传文件至JupyterLab。 Notebook中的数据下载请参考下载JupyterLab文件到本地。 (可选)配置Notebook访问DLI元数据 在完成DLI和Notebook的对接后
open、run、close和cancel函数。实现完成后将该类编译打在jar中,通过sql编辑页的UDF Jar上传。 依赖的pom配置文件内容参考如下: <dependency> <groupId>org.apache.flink</groupId> <ar
DLI弹性资源池和队列类 怎样查看弹性资源池和作业的资源使用情况? 怎样判断当前DLI队列中的作业是否有积压? 怎样查看DLI队列负载? 怎样监控DLI队列上的作业异常? 怎样将老版本的Spark队列切换成通用型队列 在default队列执行DLI SQL失败,提示超时异常怎么办?
Java SDK Java SDK概述 Java SDK环境配置 OBS授权 队列相关 资源相关 SQL作业相关 Flink作业相关 Spark作业相关 Flink作业模板相关
Python SDK环境配置 操作场景 在进行二次开发时,要准备的开发环境如表1所示。 表1 开发环境 准备项 说明 操作系统 Windows系统,推荐Windows 7及以上版本。 安装Python Python版本建议使用2.7.10和3.4.0以上版本,需要配置Visual
SQL作业相关 数据库相关 表相关 作业相关 父主题: Python SDK
Python SDK Python SDK概述 Python SDK环境配置 队列相关 资源相关 SQL作业相关 Spark作业相关
DLI SDK与API的对应关系 OBS授权 表1 OBS授权相关API&SDK的对应关系表 Class Method Java Method Python Method API Authorize OBS授权 authorizeBucket - POST /v1.0/{proj
Java SDK环境配置 Java开发环境配置 SDK的获取与安装 初始化DLI客户端 父主题: Java SDK
权限相关API 数据赋权(用户或项目) 查看赋权对象使用者权限信息
集群相关API(废弃) 创建集群(废弃) 删除集群(废弃) 获取指定集群信息(废弃) 获取全部集群信息(废弃) 父主题: 历史API