检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hudi表索引设计规范 规则 禁止修改表索引类型。 Hudi表的索引会决定数据存储方式,随意修改索引类型会导致表中已有的存量数据与新增数据之间出现数据重复和数据准确性问题。常见的索引类型如下: 布隆索引:Spark引擎独有索引,采用bloomfiter机制,将布隆索引内容写入到Parquet文件的footer中。
修改表 添加列 修改列注释 开启或关闭数据多版本 父主题: 表相关
创建Bucket索引表调优 创建Bucket索引表调优 Bucket索引常用设置参数: Spark: hoodie.index.type=BUCKET hoodie.bucket.index.num.buckets=5 Flink index.type=BUCKET hoodie
将Spark作业结果存储在MySQL数据库中,缺少pymysql模块,如何使用python脚本访问MySQL数据库? 缺少pymysql模块,可以查看是否有对应的egg包,如果没有,在“程序包管理”页面上传pyFile。具体步骤参考如下: 将egg包上传到指定的OBS桶路径下。 登录DLI管理控制台,单击“数据管理
修改普通队列的网段 使用增强型跨源时,如果DLI队列的网段和用户数据源的网段发生冲突,您可以通过修改网段操作更改包年包月队列的网段。 如果待修改网段的队列中有正在提交或正在运行的作业,或者该队列已经绑定了增强型跨源,将不支持修改网段操作。 本节操作仅适用于普通队列,不适用于弹性资源池队列。
GEOMETRYCOLLECTION STRING MySQL中的空间数据类型将转换为具有固定Json格式的字符串。 示例 该示例是利用MySQL-CDC实时读取RDS MySQL中的数据及其元数据,并写入到Print结果表中。 本示例使用RDS MySQL数据库引擎版本为MySQL 5.7.33。 参考增
nt_agency的委托信息。 步骤1:创建RDS MySQL实例 本样例中,假设作业名称为“JobSample”,采用RDS服务作为数据源,创建RDS MySQL实例。 具体操作请参见购买RDS for MySQL实例。 登录RDS管理控制台。 在管理控制台左上角选择区域和项目。
Hudi具有主键唯一性机制,但在分区表的场景下通常只能保证分区内主键唯一,因此如果分区键的值发生变更后,会导致相同主键的行记录出现多条的情况。在以日期分区的场景,可采用数据的创建时间为分区字段,切记不要采用数据更新时间做分区。 当指定Hudi的索引类型为Global索引类型时,Hud
使用跨源认证则无需在作业中配置置账号和密码。 示例 该示例是利用MySQL-CDC实时读取RDS MySQL中的数据,并写入到Print结果表中,其具体步骤如下(本示例使用RDS MySQL数据库引擎版本为MySQL 5.7.32)。 参考增强型跨源连接,根据MySQL所在的虚拟私有云和子网创建相应的增强型
ive Metastore中。由于缺失新写入的分区信息,查询引擎读取该时会丢数。 禁止指定Hudi的索引类型为INMEMORY类型。 该索引仅是为了测试使用。生产环境上使用该索引将导致数据重复。 建表示例 create table data_partition(id int, comb
BY)、多表的关联(JOIN)等。 本示例通过创建MySQL CDC源表来监控MySQL的数据变化,并将变化的数据信息插入到DWS数据库中。 前提条件 已创建RDS MySQL实例。本示例创建的RDS MySQL数据库版本选择为:8.0。 具体步骤可参考购买RDS for MySQL实例。 已创建DWS实例。
分区数:1。 副本数:1。 其他参数保持默认即可。 步骤2:准备数据输出通道 采用RDS作为数据输出通道,创建RDS MySQL实例。 具体操作请参见购买RDS for MySQL实例。 登录RDS管理控制台。 在管理控制台左上角选择区域。 单击“购买数据库实例”配置相关参数。主
datasource.com:3306 如果想要访问RDS的postgre集群,需要将连接地址中的协议头修改为"jdbc:postgresql",并在连接地址最后加上"/数据库名"。 例如:jdbc:postgresql://to-rds-1174405119-oLRHAGE7.datasource
SQL执行计划是数据库查询的逻辑流程图,它展示了数据库管理系统如何执行一个特定的SQL查询。执行计划详细列出了执行查询所需的各个步骤,例如表扫描、索引查找、连接操作(如内连接、外连接)、排序和聚合等。执行计划可以帮助分析查询的性能,识别可能的性能瓶颈,通过了解查询的执行逻辑,并根据这些信
SQL/Flink SQL,支持多种接入方式,并兼容主流数据格式。数据无需复杂的抽取、转换、加载,使用SQL或程序就可以对云上CloudTable、RDS、DWS、CSS、OBS、ECS自建数据库以及线下数据库的异构数据进行探索。 产品介绍 图说DLI 立即使用 成长地图 由浅入深,带您玩转DLI
operation参数设置写入模式。 insert: 该操作不需要通过索引去查询具体更新的文件分区,因此它的速度比upsert快。当不包含更新数据时建议使用该操作,如果存在更新数据使用该操作会出现重复数据。 bulk_insert:该操作会对主键进行排序后直接以写普通parquet表的方式插入Hudi表,该操
SQL从RDS数据库读取的时间和RDS数据库存储的时间为什么会不一致? 问题描述 Flink Opensource SQL从RDS数据库读取的时间和RDS数据库存储的时间为不一致 根因分析 该问题的根因是数据库设置的时区不合理,通常该问题出现时Flink读取的时间和RDS数据库的时间会相差13小时。
true element_at(array(E), index) 描述:返回给定索引处数组的元素。 如果index> 0,则此函数提供与SQL标准下标运算符([])相同的功能,但在访问大于数组长度的索引时该函数返回NULL,且下标运算符在这种情况下将失败。 如果index <0,则
Format 功能描述 Debezium是一个 CDC(Changelog Data Capture,变更数据捕获)的工具,可以把来自 MySQL、PostgreSQL、Oracle、Microsoft SQL Server 和许多其他数据库的更改实时流式传输到 Kafka 中。 Debezium
元数据使用示例如下: CREATE TABLE KafkaTable ( origin_database STRING METADATA FROM 'value.database' VIRTUAL, origin_table STRING METADATA FROM 'value