T-Digest函数 概述 T-digest是存储近似百分位信息的数据草图。HetuEngine中用tdigest表示这种数据结构。T-digest可以合并,在存储时可以强转为VARBINARY,检索时再由VARBINARY转换为T-digest 函数 merge(tdigest)→tdigest
创建Hive Catalog 简介 Catalog提供了元数据信息,例如数据库、表、分区、视图以及数据库或其他外部系统中存储的函数和信息。 数据处理最关键的方面之一是管理元数据。 元数据可以是临时的,例如临时表、或者通过TableEnvironment注册的UDF。 元数据也可以是持久化的,例如Hive
使用HetuEngine on Hudi HetuEngine是高性能的交互式SQL分析及数据虚拟化引擎,它与大数据生态无缝融合,实现海量数据秒级交互式查询,并支持跨源跨域统一访问,使能数据湖内、湖间、湖仓一站式SQL融合分析。 HetuEngine对Hudi仅支持select操
为什么Spark3.x的作业日志中打印找不到global_temp数据库 问题描述 Spark3.x的作业日志中提示找不到global_temp数据库。 根因分析 global_temp数据库是Spark3.x默认内置的数据库,是Spark的全局临时视图。 通常在Spark作业执
数据权限列表 DLI中SQL语句与数据库、表、角色相关的权限矩阵如表1所示。 表1 权限矩阵 分类 SQL语句 权限 说明 Database DROP DATABASE db1 database.db1的DROP_DATABASE权限 - CREATE TABLE tb1(...)
表别名 功能描述 给表或者子查询结果起别名。 语法格式 1 SELECT attr_expr_list FROM table_reference [AS] alias; 关键字 table_reference:可以是表,视图或者子查询。 AS:可用于连接table_refere
000000001),在磁盘空间上进行权衡以降低误报率。 0.000000001 hoodie.bloom.index.parallelism 索引查找的并行度,其中涉及Spark Shuffle。 默认情况下,根据输入的工作负载特征自动计算的。 0 hoodie.bloom.index.prune
配置PowerBI通过Kyuubi连接DLI进行数据查询和分析 Power BI提供了数据集成、数据仓库、报告和数据可视化等功能,能够将复杂的数据转换为易于理解和交互的可视化图表和仪表板,从而帮助企业做出基于数据的决策。 Kyuubi是一个分布式SQL查询引擎,它允许用户通过标准的SQL接口来访问和分析数据。
'10', //flink写入并行度 'hoodie.datasource.write.keygenerator.type' = 'COMPLEX',
计费概述 数据湖探索DLI的计费由不同的计费项组成,不同的计费项有不同的计费模式,如图1所示。 图1 DLI的计费组成 计费项 DLI的计费项包括计算计费、存储计费、扫描量计费。DLI的计费详情请参见DLI产品价格详情。您可以通过DLI提供的价格计算器,快速计算出购买资源的参考价格。
查看SQL执行计划 SQL执行计划是数据库查询的逻辑流程图,它展示了数据库管理系统如何执行一个特定的SQL查询。执行计划详细列出了执行查询所需的各个步骤,例如表扫描、索引查找、连接操作(如内连接、外连接)、排序和聚合等。执行计划可以帮助分析查询的性能,识别可能的性能瓶颈,通过了解
配置Fine BI通过Kyuubi连接DLI进行数据查询和分析 Fine BI是一款智能可视化工具,专注于数据分析和可视化。它支持连接多种数据源,能够将复杂的数据转换为直观的图表和仪表板,快速获得数据洞察。 Kyuubi是一个分布式 SQL 查询引擎,它提供了标准的SQL接口,使
执行SQL作业时产生数据倾斜怎么办? 什么是数据倾斜? 数据倾斜是在SQL作业执行中常见的问题,当数据分布不均匀的情况下,一部分计算节点处理的数据量远大于其他节点,从而影响整个计算过程的处理效率。 例如观察到SQL执行时间较长,进入SparkUI查看对应SQL的执行状态,如图1所
修改DLI程序包所有者 DLI提供了修改程序包组或程序包的所有者的功能。 登录DLI管理控制台,选择“数据管理 > 程序包管理”。 在“程序包管理”页面,单击程序包“操作 ”列中的“更多 > 修改所有者”。 如果该程序包进行过分组设置,选择“组”或者“程序包”进行修改。 图1 修改程序包所有者
典型场景示例:创建弹性资源池并运行作业 本章节主要介绍从创建弹性资源池、创建增强型跨源、添加队列到弹性资源池并运行作业的一个完整流程,帮助您更好、更方便的使用弹性资源池。 图1 创建弹性资源池运行作业流程图 表1 创建新队列时绑定弹性资源池流程说明 阶段 说明 参考文档 步骤一:创建弹性资源池
责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的云安全挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。
parallelism 否 无 int 定义查找连接运算符的自定义并行度。默认情况下,如果未定义此选项,则规划器将通过考虑全局配置(如果定义了选项“lookup.parallelism”)来推导并行度,否则将考虑输入运算符的并行度。 lookup.batch.interval 否 1s Duration
写入到数据库失败后的最大重试次数。 sink.parallelism 否 无 Integer 用于定义JDBC sink算子的并行度。默认情况下,并行度是由框架决定,即与上游并行度一致。 分区扫描功能介绍 为了加速Source任务实例中的数据读取,Flink为JDBC表提供了分区扫描功能。以下参
源的合理利用。 配置跨源时,必须为每个队列分配不重合的网段,占用大量VPC网段。 多队列通过弹性资源池统一进行网段划分,减少跨源配置的复杂度。 资源调配 多个队列同时扩容时不能设置优先级,在资源不够时,会导致部分队列扩容申请失败。 您可以根据当前业务波峰和波谷时间段,设置各队列在
exactly-once none sink.parallelism 否 无 Integer 定义Kafka sink算子的并行度。 默认情况下,由框架确定并行度,与上游链接算子的并行度保持一致。 ssl_auth_name 否 无 String DLI侧创建的Kafka_SSL类型的跨源认证名称。Kafka配置SSL时使用该配置。
您即将访问非华为云网站,请注意账号财产安全