检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
导出数据(废弃) 功能介绍 该API用于从DLI表中导出数据到文件。 该API为异步操作。 目前只支持从DLI表导出数据到OBS中,且导出的路径必须指定到文件夹级别。OBS路径中不支持逗号,且其中的桶名不能以正则格式“.[0-9]+(.*)”结尾,即,若桶名包含“.”, 则最后一个“
1”,可以将多个task生成的多个文件汇总为一个文件。 操作步骤 在管理控制台检查对应SQL作业详情中的“结果条数”是否正确。 检查发现读取的数据量是正确的。 图1 检查读取的数据量 确认客户验证数据量的方式是否正确。客户验证的方式如下: 通过OBS下载数据文件。 通过文本编辑器打开数据文件,发现数据量缺失。
file_format 写入的文件格式,支持按CSV、Parquet、ORC、JSON、Avro格式。 file_format为csv时,options参数可以参考表3。 注意事项 通过配置“spark.sql.shuffle.partitions”参数可以设置非DLI表在OBS桶中插入的文件个数,同
功能描述 修改已存在的分区表或非分区表的生命周期。 当第一次开启生命周期时,会扫描表/分区会扫描路径下的表数据文件,更新表/分区的LAST_ACCESS_TIME,耗时与分区数和文件数相关。 约束限制 表生命周期处于公测阶段,如果有需要请联系客服申请开通白名单。 表生命周期功能支持Hi
功能描述 修改已存在的分区表或非分区表的生命周期。 当第一次开启生命周期时,会扫描表/分区会扫描路径下的表数据文件,更新表/分区的LAST_ACCESS_TIME,耗时与分区数和文件数相关。 约束限制 表生命周期处于公测阶段,如果有需要请联系客服申请开通白名单。 表生命周期功能支持Hi
存储套餐包 购买了存储量套餐包,按需使用过程中优先抵扣存储套餐包的规格额度,超过套餐包额度的按照按需计费。存储套餐的额度每个小时会重置。 数据扫描量 按需计费 扫描量计费=单价*扫描量数据(GB) 扫描数据量套餐包 购买了扫描数据量套餐包,按需使用过程中优先抵扣扫描数据量套餐包
以在增强型跨源连接页面绑定弹性资源池。本节的操作指导介绍增强型跨源连接绑定弹性资源池的操作指导。 约束限制 增强型跨源仅支持包年包月队列和按需专属的弹性资源池/队列。 绑定跨源的DLI队列网段和数据源网段不能重合。 不支持绑定系统预置的default队列。 操作步骤 登录DLI管理控制台。
认为到期前7日)之前关闭自动续费。 按需计费资源 对于按需计费模式的资源: 按需计费的弹性资源,若不再使用这些资源且需停止计费,请删除相应资源。 按需计费的数据存储仅在存储DLI表时计费,若不再使用这些资源且需停止计费,请删除相应资源。 按需计费的扫描量仅在使用default队列
型跨源,将不支持修改网段操作。 本节操作仅适用于普通队列,不适用于弹性资源池队列。 修改队列网段步骤 目前只支持计费模式为“包年包月”和“按需/专属资源模式”的队列修改网段。 在DLI管理控制台左侧,选择“资源管理 > 队列管理”。 选择待修改的队列,单击“操作”列“更多”中的“修改网段”。
5版本有哪些优势? 表1 Spark 2.4.5版本优势 特性 说明 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释 修改非分区表或分区表的列注释。
DLI的计费模式有哪些? 包年/包月计费模式的DLI资源可以和按需计费模式相互转换吗? 数据湖队列什么情况下是空闲状态? 怎样排查DLI计费异常? 已购买套餐包,为什么仍然产生按需计费? 怎样查看套餐包资源的使用情况? 怎样查看DLI的数据扫描量? 按需计费的弹性资源池,如果没提交作业运行就不计费?
LOCATION 'obs_path'。 若新增分区指定的路径包含子目录(或嵌套子目录),则子目录下面的所有文件类型及内容也将作为该分区的记录。 您需要保证该分区目录下所有文件类型和文件内容与表的字段一致,否则查询将报错。 您可以在建表语句OPTIONS中设置“multiLevelDir
支持的包类型如下: JAR:用户jar文件 PyFile:用户Python文件 File:用户文件 ModelFile:用户AI模型文件 OBS路径 选择对应程序包的OBS路径。 说明: 程序包需提前上传至OBS服务中保存。 只支持选择文件。 分组设置 可选择“已有分组”,“创建新分组”或“不分组”。
huaweicloud-sdk-go-v3 Go SDK使用指导 Go SDK视频指导 Node.js huaweicloud-sdk-nodejs-v3 Node.js SDK使用指导 Node.js SDK视频指导 .NET huaweicloud-sdk-net-v3 .NET SDK使用指导
单击所建桶“dli-test-obs01”,进入“对象”页面。 选择左侧列表中的“对象”,选择“上传对象”,将需要上传的文件,例如“spark-examples.jar”上传到指定目录,单击“确定”。 本例文件上传成功后,文件路径为“obs://dli-test-obs01/spark-examples.jar”。
套餐包和按需计费三种。 DLI目前支持三种作业:SQL作业,Flink作业和Spark作业。 SQL作业的计费包括存储计费和计算计费,其中计算计费有包年包月计费和按需计费两种。 包年包月计费根据购买周期进行扣费,推荐使用包年包月模式,价格优惠且在周期内独享计算资源。 按需计费以小
计费构成分析 基于此案例,可详细计算出按需计费和包年/包月两种不同的计费模式的消费情况。 此案例中的单价仅为示例,且计算出的费用为估算值。单价的变动和实际场景中计算出来的费用可能会有偏差。请以华为云官网发布的数据为准。 计费模式 计算规则 付费周期 费用计算 按需计费(专属) 计算费用:计算费用=单价*CU数*小时数
在DLI的数据库中保持记录,才能创建队列。 新队列第一次运行作业时,需要一定的时间,通常为6~10分钟。 按需队列创建完成后,如果在1小时内未运行作业,系统将进行释放。 按需队列与包年/包月队列不能互相转换,如需使用包年/包月队列,直接购买即可。 16CUs队列不支持扩容和缩容。
单击“上传对象”,将people.json文件上传到OBS桶根目录下。 在OBS桶根目录下,单击“新建文件夹”,创建名为“result”的文件夹。 单击“result”的文件夹,在“result”下单击“新建文件夹”,创建名为“parquet”的文件夹。 步骤3:新建Maven工程,配置pom依赖
添加Python包后,找不到指定的Python环境 添加Python3包后,找不到指定的Python环境。 可以通过在conf文件中,设置spark.yarn.appMasterEnv.PYSPARK_PYTHON=python3,指定计算集群环境为Python3环境。 目前,新