检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
弹性资源池为DLI作业运行提供所需的计算资源(CPU和内存)。弹性资源池的单位为CU,1CU包含1CPU和4GB内存。 您可以在弹性资源池中创建多个队列, 队列之间的计算资源支持共享。 通过合理设置队列的计算资源池分配策略,提高计算资源利用率。 DLI弹性资源池之间为物理集群隔离,同一个弹性资源池中的队列之间为逻辑隔离。
定义在一个数据源表( source table )上的计算列会在从数据源读取数据后被计算,它们可以在 SELECT 查询语句中使用。 计算列不可以作为 INSERT 语句的目标,在 INSERT 语句中,SELECT 语句的 schema 需要与目标表不带有计算列的 schema 一致。 WATERMARK
怎样管理在DLI上运行的作业 管理大量的DLI作业时您可以采用以下方案: 作业分组: 将几万个作业根据不同的类型分组,不同类型的作业通过不同的队列运行。 创建IAM子用户 或者创建IAM子用户,将不同类型的作业通过不同的用户执行。 具体请参考《数据湖探索用户指南》。 此外DLI还
DLI的数据可存储在哪些地方 DLI支持存储哪些格式的数据? DLI支持如下数据格式: Parquet CSV ORC Json Avro DLI服务的数据可以存储在哪些地方? OBS:SQL作业,Spark作业,Flink作业使用的数据均可以存储在OBS服务中,降低存储成本。
源表:源表是Flink作业的数据输入表,例如Kafka等实时流数据输入。 维表:数据源表的辅助表,用于丰富和扩展源表的数据。在Flink作业中,因为数据采集端采集到的数据往往比较有限,在做数据分析之前,就要先将所需的维度信息补全,而维表就是代表存储数据维度信息的数据源。常见的用户维表有 MySQL,Redis等。
如何在一个Flink作业中将数据写入到不同的Elasticsearch集群中? 在Flink 作业中,可以使用CREATE语句来定义Source表和Sink表,并指定它们的连接器类型以及相关的属性。 如果需要将数据写入到不同的Elasticsearch集群,您需要为每个集群配置不同的连接参数,并确保Fl
定义在一个数据源表( source table )上的计算列会在从数据源读取数据后被计算,它们可以在 SELECT 查询语句中使用。 计算列不可以作为 INSERT 语句的目标,在 INSERT 语句中,SELECT 语句的 schema 需要与目标表不带有计算列的 schema 一致。 WATERMARK
DLI是否支持导入其他租户共享OBS桶的数据? DLI支持将同一个租户下子账户共享OBS桶中的数据导入,但是租户级别共享OBS桶中的数据无法导入。 DLI不支持导入其他租户共享的OBS桶中的数据,主要是为了确保数据的安全性和数据隔离。 对于需要跨租户共享和分析数据的场景,建议先将数据脱敏后上
怎样查看DLI的执行SQL记录? 场景概述 执行SQL作业过程中需要查看对应的记录。 操作步骤 登录DLI管理控制台。 在左侧导航栏单击“作业管理”>“SQL作业”进入SQL作业管理页面。 输入作业ID或者执行的语句可以筛选所要查看的作业。 父主题: SQL作业开发类
什么是DLI分区表的列赋权? 用户无法对分区表的分区列进行权限操作。 当用户对分区表的任意一列非分区列有权限,则默认对分区列有权限。 当查看用户在分区表上的权限的时候,不会显示对分区列有权限。 父主题: DLI权限管理类
有访问OBS对应的桶的权限,但是Spark作业访问时报错 verifyBucketExists on XXXX: status [403] 该报错信息可能是由于OBS桶被设置为了DLI日志桶,而日志桶不能用于DLI的其他业务功能。 您可以按以下操作步骤进行查询: 检查该OBS桶是否被设置为了DLI日志桶。
条件表达式 CASE 标准的SQL CASE表达式有两种模式。 “简单模式”从左向右查找表达式的每个value,直到找出相等的expression: CASE expression WHEN value THEN result [ WHEN ... ] [ ELSE result
DLI如何访问OBS桶中的数据 创建OBS表。 具体语法请参考《数据湖探索SQL语法参考》。 添加分区。 具体语法请参考《数据湖探索SQL语法参考》。 往分区导入OBS桶中的数据。 具体语法请参考《数据湖探索SQL语法参考》。 查询数据。 具体语法请参考《数据湖探索SQL语法参考》。
基准测试的度量单位是每小时执行的查询数( QphH@size),其中“H”表示每小时系统执行复杂查询的平均次数,“size”表示数据库规模的大小,能够反映出系统在处理查询时的能力。TPC-H 是根据真实的生产运行环境来建模的,这使得它可以评估一些其他测试所不能评估的关键性能参数。总而言之,TPC组织颁布的TPC-H
SQL从RDS数据库读取的时间和RDS数据库存储的时间为什么会不一致? 问题描述 Flink Opensource SQL从RDS数据库读取的时间和RDS数据库存储的时间为不一致 根因分析 该问题的根因是数据库设置的时区不合理,通常该问题出现时Flink读取的时间和RDS数据库的时间会相差13小时。
聚合函数把多行输入数据计算为一行结果。例如,有一些聚合函数可以计算一组行的 “COUNT”、“SUM”、“AVG”(平均)、“MAX”(最大)和 “MIN”(最小)。 对于流式查询,用于计算查询结果的状态可能无限膨胀。状态的大小大多数情况下取决于去重行的数量和分组持续的时间,持续时间较短的 group
Spark增量读取Hudi参数规范 规则 增量查询之前必须指定当前表的查询为增量查询模式,并且查询后重写设置表的查询模式 如果增量查询完,不重新将表查询模式设置回去,将影响后续的实时查询 示例 以SQL作业为例: 配置参数 hoodie.tableName.consume.mode=INCREMENTAL
逻辑运算符 常用的逻辑操作符有AND、OR和NOT,它们的运算结果有三个值,分别为TRUE、FALSE和NULL,其中NULL代表未知。优先级顺序为:NOT>AND>OR。 运算规则请参见表1,表中的A和B代表逻辑表达式。 表1 逻辑运算符 运算符 返回类型 描述 A AND B
在管理控制台左侧,单击“数据管理”>“库表管理”。 单击需要设置权限的表所在的数据库名,进入该数据库的“表管理”页面。 单击所选表“操作”栏中的“权限管理”,将显示该表对应的权限信息。 单击表权限管理页面右上角的“授权”按钮。 在弹出的“授权”对话框中选择相应的权限。 单击“确定”,完成表权限设置。 父主题:
把一个现有的列定义为一个为表标记事件时间的属性。该列的类型必须为 TIMESTAMP(3),且是 schema 中的顶层列,它也可以是一个计算列。 watermark_strategy_expression 定义了 watermark 的生成策略。它允许使用包括计算列在内的任意非查询表达式来计算 watermark