华为云首页用户手册

云数据库 GAUSSDB-逻辑解码选项:并行解码

时间：2024-12-17 17:12:05

云数据库 GAUSSDB

并行解码

以下配置选项仅限流式解码设置。

decode-style：
当enable-ddl-json-format参数值为true时，DDL的格式由enable-ddl-json-format控制，decode-style仅指定DML语句的解码格式；当enable-ddl-json-format参数值为false时，decode-style指定DML和DDL语句的解码格式。

取值范围：char型的字符'j'、't'或'b'，分别代表json格式、text格式及二进制格式。

默认值：
- 没有指定decode-style：
  针对复制槽插件类型为mppdb_decoding、sql_decoding，decode-style默认值为'b'即二进制格式解码。针对复制槽插件类型为parallel_binary_decoding、parallel_json_decoding、parallel_text_decoding，decode-style默认值分别为'b'、'j'、't'，解码格式分别为二进制格式、json格式、text格式。
- 指定decode-style：
  按照指定的decode-style进行解码。
对于json格式和text格式解码，开启批量发送选项时的解码结果中，每条解码语句的前4字节组成的uint32代表该条语句总字节数（不包含该uint32类型占用的4字节，0代表本批次解码结束），8字节uint64代表相应lsn（begin对应first_lsn，commit对应end_lsn，其他场景对应该条语句的lsn）。
例如：以mppdb_decoding插件为例，当decode-style为b类型时，以二进制格式解码，结果如下：
```
current_lsn: 0/CFE5C80 BEGIN  CS N: 2357 first_lsn: 0/CFE5C80
current_lsn: 0/CFE5D40 INSERT INTO public.test1 new_tuple: {a[typid = 23]: "1", b[typid = 23]: "2"}
current_lsn: 0/CFE5E68 COMMIT xid: 78108
```
当decode-style为j类型时，以json格式解码，结果如下：
```
BEGIN CSN: 2358 first_lsn: 0/CFE6220
{"table_name":"public.test1","op_type":"INSERT","columns_name":["a","b"],"columns_type":["integer","integer"],"columns_val":["3","3"],"old_keys_name":[],"old_keys_type":[],"old_keys_val":[]}
COMMIT XID: 78109
```
当decode-style为t类型时，以text格式解码，结果如下：
```
BEGIN CSN: 2359 first_lsn: 0/CFE64D0
table public test1 INSERT: a[integer]:3 b[integer]:4
COMMIT XID: 78110
```

二进制格式编码规则如下所示：

前4字节代表接下来到语句级别分隔符字母P（不含）或者该批次结束符F（不含）的解码结果的总字节数，该值如果为0代表本批次解码结束。
接下来8字节uint64代表相应lsn（begin对应first_lsn，commit对应end_lsn，其他场景对应该条语句的lsn）。
接下来1字节的字母有5种B/C/I/U/D，分别代表begin/commit/insert/update/delete。
第3步字母为B时：
1. 接下来的8字节uint64代表CSN。
2. 接下来的8字节uint64代表first_lsn。
3. 【该部分为可选项】接下来的1字节字母如果为T，则代表后面4字节uint32表示该事务commit时间戳长度，再后面等同于该长度的字符为时间戳字符串。
4. 【该部分为可选项】接下来的1字节字母如果为N，则代表后面4字节uint32表示该事务用户名的长度，再后面等同于该长度的字符为事务的用户名字。
5. 因为之后仍可能有解码语句，接下来会有1字节字母P或F作为语句间的分隔符，P代表本批次仍有解码的语句，F代表本批次解码完成。
第3步字母为C时：
1. 【该部分为可选项】接下来1字节字母如果为X，则代表后面的8字节uint64表示xid。
2. 【该部分为可选项】接下来的1字节字母如果为T，则代表后面4字节uint32表示时间戳长度，再后面等同于该长度的字符为时间戳字符串。
3. 因为批量发送日志时，一个COMMIT日志解码之后可能仍有其他事务的解码结果，接下来的1字节字母如果为P则表示该批次仍需解码，如果为F则表示该批次解码结束。
第3步字母为I/U/D时：
1. 接下来的2字节uint16代表schema名的长度。
2. 按照上述长度读取schema名。
3. 接下来的2字节uint16代表table名的长度。
4. 按照上述长度读取table名。
5. 【该部分为可选项】接下来1字节字母如果为N代表为新元组，如果为O代表为旧元组，这里先发送新元组。
  1. 接下来的2字节uint16代表该元组需要解码的列数，记为attrnum。
  2. 以下流程重复attrnum次。
    1. 接下来2字节uint16代表列名的长度。
    2. 按照上述长度读取列名。
    3. 接下来4字节uint32代表当前列类型的OID。
    4. 接下来4字节uint32代表当前列值（以字符串格式存储）的长度，如果为0xFFFFFFFF则表示NULL，如果为0则表示长度为0的字符串。
    5. 按照上述长度读取列值。
6. 因为之后仍可能有解码语句，接下来的1字节字母如果为P则表示该批次仍需解码，如果为F则表示该批次解码结束。

sending-batch：
指定是否批量发送。

取值范围：0或1的int型，默认值为0。
- 0：设为0时，表示逐条发送解码结果。
- 1：设为1时，表示解码结果累积到达1MB则批量发送解码结果。
开启批量发送的场景中，当解码格式为'j'或't'时，在原来的每条解码语句之前会附加一个uint32类型，表示本条解码结果长度（长度不包含当前的uint32类型），以及一个uint64类型，表示当前解码结果对应的lsn。