检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
设置SQL作业优先级 操作场景 在实际作业运行中,由于作业的重要程度以及紧急程度不同,需要重点保障重要和紧急的作业正常运行,因此需要满足它们正常运行所需的计算资源。 DLI提供的设置作业优先级功能,可以对每个SQL设置作业优先级,当资源不充足时,可以优先满足优先级较高的作业的计算资源。
Hbase结果表 功能描述 DLI将作业的输出数据输出到HBase中。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,
Hbase源表 功能描述 创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级
Hbase结果表 功能描述 DLI将作业的输出数据输出到HBase中。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,
Hbase源表 功能描述 创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级
median median函数用于计算入参的中位数。 命令格式 median(colname) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 colname 是 DOUBLE、DECIMAL、STRING、BIGINT类型。 代表需要排序的列名。 列中元素为DOUBLE类型。
Hbase源表 功能描述 创建source流从HBase中获取数据,作为作业的输入数据。HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级
数据湖队列什么情况下是空闲状态? 队列空闲状态是指在DLI 作业管理中,该队列下均无SQL 作业运行,或者 Flink 作业运行、Spark 作业运行。 即一个自然小时内无作业运行,该自然小时为空闲状态。不会进行计费。 通常按需计费的队列,在空闲1h后计算资源会被释放,再次使用时
char_matchcount char_matchcount函数用于计算str1中有多少个字符出现在str2中。 命令格式 char_matchcount(string <str1>, string <str2>) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 str1、str2
、加载,使用SQL或程序就可以对云上CloudTable、RDS、DWS、CSS、OBS、ECS自建数据库以及线下数据库的异构数据进行探索。 功能介绍 DLI用户可以通过可视化界面、Restful API、JDBC、Beeline等多种接入方式对云上CloudTable、RDS和
round round函数用于计算a的四舍五入到d位的值。 命令格式 round(DOUBLE a, INT d) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 a 是 DOUBLE、BIGINT、DECIMAL、STRING类型。 代表需要被四舍五入的值。 参数a的
执行SQL作业时产生数据倾斜怎么办? 什么是数据倾斜? 数据倾斜是在SQL作业执行中常见的问题,当数据分布不均匀的情况下,一部分计算节点处理的数据量远大于其他节点,从而影响整个计算过程的处理效率。 例如观察到SQL执行时间较长,进入SparkUI查看对应SQL的执行状态,如图1所
variance/var_pop variance/var_pop函数用于返回列的方差。 命令格式 variance(col), var_pop(col) 参数说明 表1 参数说明 参数 是否必选 说明 col 是 数据类型为数值的列。 参数为其他类型的列返回NULL。 返回值说明
stddev_samp stddev_samp函数用于返回指定列的样本偏差。 命令格式 stddev_samp(col) 参数说明 表1 参数说明 参数 是否必选 说明 col 是 数据类型为数值的列。其他类型返回NULL。 返回值说明 返回DOUBLE类型的值。 示例代码 计算
regexp_count regexp_count函数用于计算source中从start_position位置开始,匹配指定pattern的子串数。 命令格式 regexp_count(string <source>, string <pattern>[, bigint <start_position>])
基本概念 账号 用户注册华为账号并开通华为云。账号对其所拥有的资源及云服务具有完全的访问权限,可以重置用户密码、分配用户权限等。由于账号是付费主体,为了确保账号安全,建议您不要直接使用账号进行日常管理工作,而是创建用户并使用他们进行日常管理工作。 用户 由账号在IAM中创建的用户
总览”的“欠费金额”查看,华为云将在您充值时自动扣取欠费金额。 如果您在宽限期内仍未支付欠款,那么就会进入保留期,资源状态变为“已冻结”,您将无法对处于保留期的按需计费资源执行任何操作。 保留期到期后,若您仍未支付账户欠款,那么资源将被释放,数据无法恢复。 华为云根据客户等级定义了不同客户的宽限期和保留期时长。
covar_pop covar_pop函数用于返回两列数值协方差。 命令格式 covar_pop(col1, col2) 参数说明 表1 参数说明 参数 是否必选 说明 col1 是 数据类型为数值的列。其他类型返回NULL。 col2 是 数据类型为数值的列。其他类型返回NULL。
covar_samp covar_samp函数用于返回两列数值样本协方差。 命令格式 covar_samp(col1, col2) 参数说明 表1 参数说明 参数 是否必选 说明 col1 是 数据类型为数值的列。其他类型返回NULL。 col2 是 数据类型为数值的列。其他类型返回NULL。
添加Python包后,找不到指定的Python环境 添加Python3包后,找不到指定的Python环境。 可以通过在conf文件中,设置spark.yarn.appMasterEnv.PYSPARK_PYTHON=python3,指定计算集群环境为Python3环境。 目前,新