检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HAVING HAVING HAVING与聚合函数和GROUP BY一起使用,来控制选在哪些组。HAVING能够在分组和聚合计算之后,过滤掉不满足给定条件的组。 例如: SELECT count(*), mktsegment, nationkey, CAST(sum(acctbal)
使用DLI分析车联网场景驾驶行为数据 应用场景 在车联网领域,云计算与大数据为企业提供了强大的分析挖掘能力,可以帮助企业和车队管理者更加科学、便捷地进行车辆数据管理与分析。 方案架构 根据已有的某货运公司车辆定时上报的详单数据和货运订单数据,DLI可以完成对该货运公司车辆行驶特点分析、记录明细的查询。
常用操作与系统权限关系 表1列出了DLI SQL常用操作与系统策略的授权关系,您可以参照该表选择合适的系统策略。更多SQL语法赋权请参考《权限列表》章节。 表1 DLI常用操作与系统权限的关系 资源 操作 说明 DLI FullAccess DLI ReadOnlyAccess Tenant
修改弹性资源池的主机信息 操作场景 主机信息用于配置主机的IP与域名的映射关系,在作业配置时只需使用配置的域名即可访问对应的主机。在跨源连接创建完成后,支持修改主机信息。 常见的访问MRS的HBase集群时需要配置实例的主机名(即域名)与主机对应的IP地址。 约束限制 已获取MR
管理Spark作业 查看Spark作业的基本信息 在总览页面单击“Spark作业”简介,或在左侧导航栏单击“作业管理”>“Spark作业”,可进入Spark作业管理页面。Spark作业管理页面显示所有的Spark作业,作业数量较多时,系统分页显示,您可以查看任何状态下的作业。 表1
OPTIMIZE命令用于优化数据在存储中的布局,提高查询速度。 注意事项 由于Optimize是一项耗时的活动,因此需要根据更好的最终用户查询性能与优化计算时间之间的权衡来确定运行Optimized的频率。 分区表优化需要设置参数spark.sql.forcePartitionPredicat
如果扫描字节数量少于10M, 则按10M计算。 数据定义语言(DDL)语句(如 CREATE、ALTER、DROP TABLE等语句)、管理分区语句、失败的查询语句无需付费。 取消的查询,按取消查询时扫描的总数据量计费。 若计算任务超时或失败,则当次计算不收取费用。 数据的存储方式(包括
Bitwise函数 bit_count(x, bits) → bigint 计算2的补码表示法中x中设置的位数(视为有符号位的整数)。 SELECT bit_count(9, 64); -- 2 SELECT bit_count(9, 8); -- 2 SELECT bit_count(-7
即一个自然小时内无作业运行,该自然小时为空闲状态。不会进行计费。 通常按需计费的队列,在空闲1h后计算资源会被释放,再次使用时,需要重新分配计算资源,可能会耗费5~10min时间。 按需计费以小时为单位进行结算。不足一小时按一小时计费,小时数按整点计算。 例如 12:10 ~12:30、12:10 ~12:55 期间使用,则收取1个小时的费用。
median median函数用于计算入参的中位数。 命令格式 median(colname) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 colname 是 DOUBLE、DECIMAL、STRING、BIGINT类型。 代表需要排序的列名。 列中元素为DOUBLE类型。
char_matchcount函数用于计算str1中有多少个字符出现在str2中。 命令格式 char_matchcount(string <str1>, string <str2>) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 str1、str2 是 STRING 待计算的字符串str1、str2。
开通了企业管理服务的用户可设置该参数绑定指定的项目。 platform 否 String 队列计算资源的cpu架构。 x86_64 aarch64 默认值为x86_64。 说明: aarch64架构计算资源使用华为鲲鹏系列服务器。 resource_mode 否 Integer 队列资源模式。支持以下两种类型:
的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 图1阐明了区域和可用区之间的关系。 图1 区域和可用区 目前,华为云已在全球多个地域开放云服务,您可以根据需求
round round函数用于计算a的四舍五入到d位的值。 命令格式 round(DOUBLE a, INT d) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 a 是 DOUBLE、BIGINT、DECIMAL、STRING类型。 代表需要被四舍五入的值。 参数a的
参数说明 参数 是否必选 说明 col 是 数据类型为数值的列。其他类型返回NULL。 返回值说明 返回DOUBLE类型的值。 示例代码 计算所有商品库存(items)的样本偏差。命令示例如下: select stddev_samp(items) from warehouse; 返回结果如下:
使用超高IO本地盘规格机型,加速磁盘操作 group agg单点及数据倾斜调优 按天聚合计算或者group by key不均衡场景下,group聚合计算存在单点或者数据倾斜问题,此时,可以通过将聚合计算拆分成Local-Global进行优化。配置方式为设置调优参数: table.optimizer
双AZ能提高您的数据可用性。 双AZ属性一旦启用,后续无法修改。 CPU架构 X86 鲲鹏 规格 队列规格指的是计算节点所有CU数的总和,1CU=1核4GB。DLI系统会自动分配各计算节点的内存和CPU大小,具体计算节点个数客户端不感知。 选择“包年/包月”计费模式时,可选择“固定规格”,也可以“自定义
参数 是否必选 说明 col 是 数据类型为数值的列。 参数为其他类型的列返回NULL。 返回值说明 返回DOUBLE类型的值。 示例代码 计算所有商品库存(items)的方差。命令示例如下: select variance(items) from warehouse; --等效于如下语句。
regexp_count regexp_count函数用于计算source中从start_position位置开始,匹配指定pattern的子串数。 命令格式 regexp_count(string <source>, string <pattern>[, bigint <start_position>])
计费公式 资源类型 计费公式 资源单价 计算资源 计算费用=单价*CU数*小时数 请参见DLI产品价格详情。 存储资源 存储费用=单价*存储数据量(GB)*小时数。 请参见DLI产品价格详情。 表3 资源类型 资源类型 计费详情 合计 计算资源 0.4元/小时,实际CUs:64CUs,累计计费时长:2小时