正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
运维指导 查看DLI队列负载 如何判断当前DLI队列中的作业是否有积压? 如何将老版本的Spark队列切换成通用型队列 为什么云监控CES服务看不到DLI队列的资源运行情况? 购买了64CU的队列资源,运行Spark作业时如何分配? 创建扩容任务时 ,提示Queue plans create
永洪BI对接准备工作 操作场景 永洪BI与DLI对接之前的准备工作。 操作步骤 (可选)在公有云管理控制台上方的“服务列表”中选择“大数据”中的“数据湖探索”,单击右上角的“常用链接”下载DLI JDBC驱动(例如:dli-jdbc-1.1.0-jar-with-dependencies-jdk1
输出结果。 对于 Grouping Sets 中的空子列表,结果数据中的分组或表达式列会用NULL代替。例如,上例中的 GROUPING SETS ((supplier_id), ()) 里的 () 就是空子列表,与其对应的结果数据中的 supplier_id 列使用 NULL 填充。
INT 返回字符串中的字符数量 UPPER(string) STRING 返回字符串的大写形式 LOWER(string) STRING 返回字符串的小写形式 POSITION(string1 IN string2) INT 返回第一个字符串在第二个字符串中首次出现的位置。若第
Native性能加速 Spark查询语句性能提升。 元数据访问性能提升 提升Spark在处理大数据时的元数据访问性能,提高数据处理流程效率。 提升OBS committer小文件写性能 提升对象存储服务(OBS)在处理小文件写入时的性能,提高数据传输效率。 动态Executor shuffle数据优化
OVER 窗口定义在升序(asc)的时间属性上。其他的排序不支持。 PARTITION BY:OVER 窗口可以定义在一个分区表上。PARTITION BY 子句代表着每行数据只在其所属的数据分区进行聚合。 范围(RANGE)定义:范围(RANGE)定义指定了聚合中包含了多少行数据。范围通过
非必填。用于指定schema中的某个字段作为Redis中key的标识。在插入数据时与参数“table”配合使用。 partitions.number 读取数据时,并发task数。 scan.count 每批次读取的数据记录数,默认为100。如果在读取过程中,redis集群中的CPU使用率还有提升空间,可以调大该参数。
非必填。用于指定schema中的某个字段作为Redis中key的标识。在插入数据时与参数“table”配合使用。 partitions.number 读取数据时,并发task数。 scan.count 每批次读取的数据记录数,默认为100。如果在读取过程中,redis集群中的CPU使用率还有提升空间,可以调大该参数。
0808)与我们联系。 常见问题 DLI Spark 2.3.2版本停止服务后,正在使用该版本的作业有哪些影响? 在Spark 2.3.2 EOS时间后创建的队列,在执行作业时不支持选择已经EOS的计算引擎。 历史创建的队列仍然可以使用Spark 2.3.2执行作业,但作业执行过
包年/包月的DLI资源从购买到被自动删除之前,您可以随时在DLI控制台为队列或弹性资源池续费,以延长资源的使用时间。 自动续费 开通自动续费后,DLI资源会在每次到期前自动续费,避免因忘记手动续费而导致资源被自动删除。 在DLI资源生命周期的不同阶段,您可以根据需要选择一种方式进行续费,具体如图1所示。
substr('20220601',1,8) 解决措施 在使用join进行多表关联查询时,不管表数据量大小,join时都需要指定on条件来减少多表关联的数据量,从而减轻队列的负荷,提升查询效率。 例如,问题现象中的问题语句可以根据业务场景,在join时通过指定on条件来进行优化,这样会极大减少关联查询的结果集,提升查询效率。
随机森林结构仅构造一次,模型更新仅仅是节点数据分布值的更新。 节点存储多个窗口的数据分布信息,能够检测数据分布变化。 异常检测和模型更新在同一个代码框架中完成。 语法格式 1 SRF_UNSUP(ARRAY[字段1, 字段2, ...], '可选参数列表') 函数输出为[0, 1]区
随机森林结构仅构造一次,模型更新仅仅是节点数据分布值的更新。 节点存储多个窗口的数据分布信息,能够检测数据分布变化。 异常检测和模型更新在同一个代码框架中完成。 语法格式 1 SRF_UNSUP(ARRAY[字段1, 字段2, ...], '可选参数列表') 函数输出为[0, 1]区
EXISTS (sub-query) BOOLEAN 如果子查询至少返回一行则返回 TRUE。 仅支持可以在 join 和分组操作中可以被重写的操作。对于流式查询,该操作在 join 和分组操作中被重写。根据输入行的数量计算查询结果所需的状态可能会无限增长。 请提供具有有效保留间隔的查询配置,以防止状态过大。
HAVING 和 WHERE 的不同点:WHERE 在 GROUP BY 之前过滤单独的数据行。HAVING 过滤 GROUP BY 生成的数据行。 HAVING 条件中的每一列引用必须是明确的 grouping 列,除非它出现在聚合函数中。 即使没有 GROUP BY 子句,HAVING
支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释 修改非分区表或分区表的列注释。 支持统计SQL作业的CPU消耗 支持在控制台查看“CPU累计使用量”。
groupid 否 BIGINT BIGINT类型常量,必须大于等于0。 返回值说明 返回STRING类型。 如果pattern为空串或pattern中没有分组,返回报错。 groupid非BIGINT类型或小于0时,返回报错。 不指定时默认为1,表示返回第一个组。 如果groupid等于0,则返回满足整个pattern的子串。
groupid 否 BIGINT BIGINT类型常量,必须大于等于0。 返回值说明 返回STRING类型。 如果pattern为空串或pattern中没有分组,返回报错。 groupid非BIGINT类型或小于0时,返回报错。 不指定时默认为1,表示返回第一个组。 如果groupid等于0,则返回满足整个pattern的子串。
DAY 或 INTERVAL '2-10' YEAR TO MONTH 返回间隔。 CURRENT_DATE DATE 返回本地时区中的当前 SQL 日期。在流模式下为每条记录进行取值。 但在批处理模式下,它在查询开始时计算一次,并对每一行使用相同的结果。 CURRENT_TIME TIME
'obs://bucketName/filePath'') partitioned by (faculytNo, classNo); 在表格中插入分区数据。 利用插入数据中的内容,可以插入以下数据 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17