检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
弹性资源池与队列为DLI作业提供计算资源,创建弹性资源池,弹性资源池添加队列。 使用该DLI独享队列与MRS集群建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。
性资源池计费详情请参见数据湖探索价格详情。 价格仅供参考,实际计算请以数据湖探索价格详情中的价格为准。 该示例计费详情如表1所示。 表1 包年/包月弹性资源池+扩缩容场景计费示例 计费模式 计算规则 付费周期 费用计算 包年/包月 弹性资源池64CUs包周期 1个月 费用:10880元
所要查询的表必须是已经存在的表,否则会出错。 此处的sub_query与聚合函数的位置不能左右互换。 示例 对表student_info按字段name进行分组,计算每组中记录数,若其记录数等于子查询中表course_info的记录数,返回表student_info中字段name等于表course_info字段name的记录数。
出列的序号。 ORDER BY子句在GROUP BY或HAVING子句之后,在OFFSET、LIMIT或FETCH FIRST子句之前进行计算。 按照SQL规范,ORDER BY子句只影响包含该子句的查询结果的行顺序。HetuEngine遵循该规范,并删除该子句的冗余用法,以避免对性能造成负面影响。
Hudi是否应该基于最后24个提交的元数据动态计算insertSplitSize,默认关闭。 true hoodie.copyonwrite.record.size.estimate 平均记录大小。如果指定,Hudi将使用它,并且不会基于最后24个提交的元数据动态地计算。 没有默认值设置。这对于计算插入并行度以及将插入打包到小文件中至关重要。
求,节约成本。 商用 定时扩容/缩容 2020年6月 序号 功能名称 功能描述 阶段 相关文档 1 计算队列支持跨AZ双活 DLI跨AZ队列能够为用户提供跨区域容灾的能力,提高计算的可靠性。 商用 队列管理概述 2 支持Spark作业开发者模式 用户可以在DLI管理控制台采用API接口模式设置参数及参数值。
Service,OBS)提供的一种经过优化的高性能文件系统,提供毫秒级别访问时延,以及TB/s级别带宽和百万级别的IOPS,能够快速处理高性能计算(HPC)工作负载。 并行文件系统的详细介绍和使用说明,请参见《并行文件系统特性指南》。 配置DLI作业桶 在DLI控制台左侧导航栏中单击“全局配置
Service,OBS)提供的一种经过优化的高性能文件系统,提供毫秒级别访问时延,以及TB/s级别带宽和百万级别的IOPS,能够快速处理高性能计算(HPC)工作负载。 并行文件系统的详细介绍和使用说明,请参见《并行文件系统特性指南》。 配置DLI作业桶 在DLI控制台左侧导航栏中单击“全局配置
配置DBT连接DLI进行数据调度和分析 DBT(Data Build Tool),是一款开源的数据建模和转换工具,运行在Python环境上。DBT连接DLI,用来定义和执行SQL转换,支持从数据集成、转换到分析的整个数据生命周期管理,适用于大规模数据分析项目和复杂的数据分析场景。
if(condition, true_value) 如果condition为真,返回true_value;否则返回NULL,true_value不进行计算。 select if(a=1,8) from (values (1),(1),(2)) as t(a); -- 8 8 NULL select
采用Bucket索引,写入是通过主键Hash打散的,数据会均匀的写入到分区下每个桶。因为各个分区的数据量是会有波动的,分区下桶的个数设计一般会按照最大分区数据量计算,这样会出现越细粒度的分区,桶的个数会冗余越多。例如: 采用天级分区,平均的日增数据量是3GB,最多一天的日志是8GB,这个会采用Bucket桶数=
6,则计算单元为8CU。 如果不手动配置TaskManager资源,则单TM所占CU数默认为1,单TM slot数显示值为0,但实际上,单TM slot数值依据上述公式计算结果为2。 如果手动配置TaskManager资源,请依据上述公式计算配置,建议作业最大并行数为计算单元2倍为宜。
L情况下,默认值为0。 STRING 字符串类型。 FLOAT 单精度浮点型,存储空间为4字节,在NULL情况下,采用计算值默认值为0。 由于浮点类型的数据在计算机中的存储方式的限制,在比较两个浮点类型的数据是否相等时,因存在精度问题,不能直接采用“a==b”的方式进行比较,建议
3 (2 rows) quotient(BIGINT numerator, BIGINT denominator)→bigint 描述:计算左边数字除于右边数字的值,会抛弃部分小数部分的值 select quotient(25,4);-- 6 随机数 rand() → double
用户已上传到DLI资源管理系统的资源包名,用户自定义作业的依赖文件。 executor_number 否 Integer 作业使用计算节点个数。 executor_cu_number 否 Integer 计算节点cu数。 resume_checkpoint 否 Boolean 异常自动重启时,是否从最新che
选择需要扩容的队列,单击“操作”列“更多”中的“规格变更”。 在“规格变更”页面,“变更方式”选择“扩容”,设置扩容的CU值。 图1 扩容 确定费用后,单击“提交”。 缩容 当计算业务较小,不需要那么大的队列规格时,可以通过手动变更队列规格来缩容当前队列。 缩容属于耗时操作,在DLI“规格变更”页面执行缩容操作后,需
String 队列的类型,。 sql general all 如果不指定,默认为“sql”。 cu_count 否 Integer 与该队列绑定的计算单元数,即当前队列的CU数。 charging_mode 否 Integer 队列的收费模式。 0:系统默认default队列。按照扫描量计费。
默认值为“shared_cluster”。 cu_number 否 Integer 用户为作业选择的CU数。默认值为“2”。 CU数量为DLI的计算单元数量和管理单元数量总和,CU也是DLI的计费单位,1CU=1核4G。当前配置的CU数量为运行作业时所需的CU数,不能超过其绑定队列的C
String 流图编辑数据。默认为null。 executor_number 否 Integer 作业使用计算节点个数。 executor_cu_number 否 Integer 计算节点cu数。 cu_number 否 Integer 用户为作业选择的CU数量。 “show_detail”为“true”时独有。
重置规则 扫描数据量套餐包 按照用户每个作业的数据扫描量(单位为“GB”)收取计算费用。 仅适用于default 队列。 扫描数据量套餐的额度按订购周期会重置。 弹性资源池CU时套餐包 按照“CU时”收取计算费用,用户在弹性资源池添加的队列上运行作业时按照弹性资源池CU时计费。 适用