检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
kind:资源包类型,当前支持的包类型分别为: jar:用户jar文件 pyfile:用户Python文件 file:用户文件 modelfile:用户AI模型文件 obs_jar_paths:对应资源包的OBS路径,参数构成为:{bucketName}.{obs域名}/{jarPath}/{jarName}。
有访问OBS对应的桶的权限,但是Spark作业访问时报错 verifyBucketExists on XXXX: status [403] 该报错信息可能是由于OBS桶被设置为了DLI日志桶,而日志桶不能用于DLI的其他业务功能。 您可以按以下操作步骤进行查询: 检查该OBS桶是否被设置为了DLI日志桶。
Strings 用户已上传到DLI资源管理系统的资源包名,用户自定义作业的依赖文件。 示例:"myGroup/test.cvs,myGroup/test1.csv"。 通过在应用程序中添加以下内容可访问对应的依赖文件。其中,“fileName”为需要访问的文件名,“ClassName”为需要访问该文件的类名。
verifyBucketExists on {{桶名}}: status [403]。 解决措施 请检查OBS桶权限,确保账号有权限访问报错信息中提到的OBS桶。 如果没有,需要联系OBS桶的管理员添加桶的访问权限。 父主题: SQL作业运维类
uid会重新生成。 文件合并 FileSink 开始支持已经提交Pending文件的合并,从而允许应用设置一个较小的时间周期并且避免生成大量的小文件。 这一功能开启后,在文件转为Pending状态与文件最终提交之间会进行文件合并。这些Pending状态的文件将首先被提交为一个以.
SDK概述。 创建OBS表 DLI提供创建OBS表的接口。您可以使用该接口创建数据存储在OBS的表。示例代码如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 def create_obs_tbl(dli_client
数据迁移与传输方式概述 导入数据至OBS DLI支持在不迁移数据的情况下,直接访问OBS中存储的数据进行查询分析。 您只需将本地数据导入OBS即可开始使用DLI进行数据分析。 导入数据的具体操作请参考上传对象。 迁移数据至DLI 为了将分散在不同系统中的数据迁移到DLI,确保数据
大数据场景推荐使用并行文件系统,并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件系统,提供毫秒级别访问时延,以及TB/s级别带宽和百万级别的IOPS,能够快速处理高性能计算(HPC)工作负载。 并行文件系统
LOAD数据到OBS外表报错:IllegalArgumentException: Buffer size too small. size 问题描述 在Spark SQL作业中,使用LOAD DATA命令导入数据到DLI表中时报如下错误: error.DLI.0001: Illeg
x访问元数据时,DataSource语法创建avro类型的OBS表创建失败 问题描述 使用Spark访问元数据时,DataSource语法创建avro类型的OBS表创建失败。 图1 avro类型的OBS创建失败 根因分析 当前Spark2.3.x不支持创建avro类型的OBS表,Spark2.4.x及以上的版本支持avro类型的OBS表。
DLI数据多版本功能当前仅支持通过Hive语法创建的OBS表,具体建表SQL语法可以参考使用Hive语法创建OBS表。 回收站数据自动清理需要在OBS并行文件系统的桶上配置回收站数据的生命周期规则。具体步骤参考如下: 在OBS服务控制台页面左侧选择“并行文件系统”,单击对应的文件系统名称。 在“基础配置”
保存到OBS。 勾选“保存作业日志”参数后,需配置“OBS桶”参数,选择OBS桶用于保存用户作业日志信息。如果选择的OBS桶是未授权状态,需要单击“OBS授权”。 日志信息的保存路径为:“桶名/jobs/logs/作业id开头的目录”。其中,“桶名”可以自定义。“/jobs/logs/作业id开头的目录”为固定格式。
SQL作业访问报错:DLI.0003: AccessControlException XXX。 解决措施 请检查OBS桶权限,确保账号有权限访问报错信息中提到的OBS桶。 如果没有,需要联系OBS桶的管理员添加桶的访问权限。 父主题: SQL作业运维类
需要执行Truncate命令的DLI表或者OBS表的名称。 partcol1 需要删除的DLI表或者OBS表的分区名称。 注意事项 只支持清除DLI表或者OBS表的数据。 示例 1 truncate table test PARTITION (class = 'test'); 父主题:
进入OBS管理控制台,在“桶列表”下,单击已创建的OBS桶名称,本示例桶名为“dli-test-obs01”。 单击“上传对象”,将testdata.csv文件上传到OBS桶根目录下。 在OBS桶根目录下,单击“新建文件夹”,创建名为“warehousepath”的文件夹。该文件夹路径用来存储Spark创建表的元数据信息“spark
单击所建桶“dli-test-obs01”,进入“对象”页面。 选择左侧列表中的“对象”,选择“上传对象”,将需要上传的文件,例如“spark-examples.jar”上传到指定目录,单击“确定”。 本例文件上传成功后,文件路径为“obs://dli-test-obs01/spark-examples
VACUUM 命令功能 VACUUM命令用于删除表目录中不由 Delta 管理的所有文件,并删除不再处于表事务日志最新状态且超过保留期阈值的数据文件。默认阈值为 7 天。 注意事项 RETAIN num HOURS表示保留期阈值,建议设置为至少 7 天。 如果对 Delta 表运
被克隆的信息包括:schema、分区信息、数据文件路径等。 对克隆表所做的任何更改都只会影响克隆本身,而不会影响源表,只要它们不触及源数据。注意克隆表可能仍会指向源表的数据文件,当源表做了vacuum操作时,可能导致克隆表找不到文件。 命令格式 CREATE TABLE [target_db
目录已经存在,系统将返回错误信息,无法执行导出操作。 “Overwrite”:覆盖。在指定目录下新建文件,会删除已有文件。 data_path 是 String 导入或导出的文件路径。 data_type 是 String 导入或导出的数据类型(当前支持csv和json格式)。 database_name
查找。 前提条件 配置前,请先购买OBS桶或并行文件系统。大数据场景推荐使用并行文件系统,并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件系统,提供毫秒级别访问时延,以及T