检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
云容器引擎-成长地图 | 华为云 数据湖探索 数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink、HetuEngine生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需
上传数据相关API(废弃) 对已创建的上传作业进行鉴权(废弃) 父主题: 历史API
Spark jar 如何读取上传文件 Spark可以使用SparkFiles读取 –-file中提交上来的文件的本地路径,即:SparkFiles.get("上传的文件名")。 Driver中的文件路径与Executor中获取的路径位置是不一致的,所以不能将Driver中获取到的
对已创建的上传作业进行鉴权(废弃) 功能介绍 该API用于检查已创建的上传作业是否合法,并授权合法作业上传数据至DLI。 当前接口已废弃,不推荐使用。 URI URI格式: POST /v1.0/{project_id}/uploader/authentication 参数说明 表1
"UPLOADING"表示正在上传。 "READY"表示资源包已上传。 "FAILED"表示资源包上传失败。 underlying_name 否 String 资源包在队列中的名字。 is_async 否 Boolean 是否异步上传资源包。 请求示例 从OBS上传用户文件至DLI,并定义分组名称为gatk。
说明: 上传的同一组资源包含不同文件类型时,均选择“file”类型作为这次上传文件的类型。 group 是 String 将要创建的分组名。 is_async 否 Boolean 是否使用异步方式上传资源包。默认值为“false”,表示不使用异步方式。推荐使用异步方式上传资源包。
"UPLOADING"表示正在上传。 "READY"表示资源包已上传。 "FAILED"表示资源包上传失败。 underlying_name 否 String 资源包在队列中的名字。 is_async 否 Boolean 是否异步上传资源包。 请求示例 从OBS上传python文件至DLI,并定义分组名称为gatk。
Jar包或Jar作业程序包上传到云平台进行统一的管理和维护。 有以下两种方式管理程序包: (推荐使用)上传至OBS管理程序包:提前将对应的jar包上传至OBS桶中,在作业配置时选择对应的OBS路径。 (DLI程序包功能即将停用)上传至DLI管理程序包:提前将对应的jar包上传至OBS桶中,并
"UPLOADING"表示正在上传。 "READY"表示资源包已上传。 "FAILED"表示资源包上传失败。 underlying_name 否 String 资源包在队列中的名字。 is_async 否 Boolean 是否异步上传资源包。 请求示例 从OBS上传jar包至DLI,并定义分组名称为gatk。
Flink Jar作业是否支持上传配置文件,要如何操作? Flink Jar作业上传配置文件操作流程 自定义(JAR)作业支持上传配置文件。 将配置文件通过程序包管理上传到DLI; 在Flink jar作业的其他依赖文件参数中,选择创建的DLI程序包; 在代码中通过ClassName
视图相关 创建视图 删除视图
删除视图 功能描述 删除视图。 语法格式 1 DROP VIEW [IF EXISTS] [db_name.]view_name; 关键字 DROP:删除指定视图的元数据。虽然视图和表有很多共同之处,但是DROP TABLE不能用来删除VIEW。 注意事项 所要删除的视图必须是已经存在的,否则会出错,可以通过IF
志显示访问目录异常 Spark作业不支持访问sftp,建议将文件数据上传到OBS,再通过Spark作业进行读取和分析。 上传数据到OBS桶:通过OBS管理控制台或者使用命令行工具将存储在sftp中的文件数据上传到OBS桶中。 Spark读取OBS文件数据,详见使用Spark Jar作业读取和查询OBS数据。
DLI支持用户通过批处理方式将程序包提交至通用队列中运行。 如果用户需要更新程序包,可以使用相同的程序包或文件上传至DLI的同一个位置(同一个分组),直接覆盖原有的程序包或文件。 前提条件 所使用的程序包需提前上传至OBS服务中保存。 创建程序包步骤 在管理控制台左侧,单击“数据管理”>“程序包管理”。
新队列第一次运行作业时,需要一定的时间,通常为6~10分钟。 涉及接口 创建弹性资源池:创建弹性资源池。 创建队列:在弹性资源池中添加队列。 上传分组资源:上传Spark作业所需的资源包。 查询组内资源包:确认上传的资源包是否正确。 创建批处理作业:创建并提交Spark批处理作业。 查询批处理作业状态:查看批处理作业状态。
将CSV格式的数据上传到对象存储服务OBS,使用DLI将CSV数据转换为Parquet数据,并将转换后的Parquet数据存储到OBS中。 图1 方案简介 流程指导 使用DLI将CSV数据转换为Parquet数据主要包括以下步骤: 步骤1:创建并上传数据。将数据上传到对象存储服务OBS。
n脚本访问MySQL数据库? 缺少pymysql模块,可以查看是否有对应的egg包,如果没有,在“程序包管理”页面上传pyFile。具体步骤参考如下: 将egg包上传到指定的OBS桶路径下。 登录DLI管理控制台,单击“数据管理 > 程序包管理”。 在“程序包管理”页面,单击右上角“创建”可创建程序包。
CREATE VIEW语句 语法定义 CREATE VIEW [IF NOT EXISTS] view_name [{columnName [, columnName ]* }] [COMMENT view_comment] AS query_expression 功能描述
常为6~10分钟。 涉及接口 创建弹性资源池:创建弹性资源池。 创建队列:在弹性资源池中添加队列。 上传分组资源:上传Flink自定义作业所需的资源包。 查询组内资源包:确认上传的资源包是否正确。 创建Flink自定义作业:创建Flink自定义作业。 批量运行作业:运行Flink自定义作业。
map-null-key.mode 否 'FAIL' String 在序列化地图数据的空键时指定处理模式。当前支持的值为“FAIL”、“DROP”和“LITERAL”:选项“FAIL”将在遇到带有空键的地图时抛出异常。选项“DROP”将删除地图数据的空键条目。选项“LITERAL”将替换空带字符串文字的键。字符串文字由