数据仓库服务 GaussDB(DWS)-华为云

数据仓库服务 GaussDB(DWS)-词典概述

词典概述词典用于定义停用词（stop words），即全文检索时不搜索哪些词。词典还可以用于对同一词的不同形式进行规范化，这样同一个词的不同派生形式都可以进行匹配。规范化后的词称为词位（lexeme）。除了提高检索质量外，词的规范化和删除停用词可以减少文档tsvector格式的大小，从而提高性能。词的规范化和删除停用词并不总是具有语言学意义，用户可以根据应用环境在词典定义文件中自定义规范化和删除规则。一个词典是一个程序，接收标记（token）作为输入，并返回：如果token在词典中已知，返回对应lexeme数组（注意，一个标记可能对应多个lexeme）。一个lexeme。一个新token会代替输入token被传递给后继词典（当前词典可被称为过滤词典）。如果token在词典中已知，但它是一个停用词，返回空数组。如果词典不能识别输入的token，返回NULL。 GaussDB (DWS)提供了多种语言的预定义词典，同时提供了五种预定义的词典模板，分别是Simple，Synonym，Thesaurus，Ispell，和Snowball，可用于创建自定义参数的新词典。在使用全文检索时，建议用户：可以在文本搜索配置中定义一个解析器，以及一组用于处理该解析器的输出标记词典。对于解析器返回的每个标记类型，可以在配置中指定不同的词典列表进行处理。当解析器输出一种类型的标记后，在对应列表的每个词典中会查阅该标记，直到某个词典识别它。如果它被识别为一个停用词，或者没有任何词典识别，该token将被丢弃，即不被索引或检索到。通常情况下，第一个返回非空结果的词典决定了最终结果，后继词典将不会继续处理。但是一个过滤类型的词典可以依据规则替换输入token，然后将替换后的token传递给后继词典进行处理。配置词典列表的一般规则是，第一个位置放置一个应用范围最小的、最具体化定义的词典，其次是更一般化定义的词典，最后是一个普适定义的词典，比如Snowball词干词典或Simple词典。在下面例子中，对于一个针对天文学的文本搜索配置astro_en，可以定义标记类型asciiword（ASCII词）对应的词典列表为：天文术语的Synonym同义词词典， Ispell英语词典和Snowball英语词干词典。 12 ALTER TEXT SEARCH CONFIGURATION astro_en ADD MAPPING FOR asciiword WITH astro_syn, english_ispell, english_stem; 过滤类型的词典可以放置在词典列表中除去末尾的任何地方，放置在末尾时是无效的。使用这些词典对标记进行部分规范化，可以有效简化后继词典的处理。父主题：词典

数据仓库服务 GaussDB(DWS)

数据仓库服务 GaussDB(DWS)-Synonym词典:示例

示例 Synonym词典可用于解决语言学相关问题，例如，为避免使单词"Paris"变成"pari"，可在Synonym词典文件中定义一行"Paris paris"，并将该词典放置在预定义的english_stem词典之前。认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。 1 2 3 4 5 6 7 8 91011121314151617181920212223242526272829303132333435363738394041 SELECT * FROM ts_debug('english', 'Paris'); alias | description | token | dictionaries | dictionary | lexemes -----------+-----------------+-------+----------------+--------------+--------- asciiword | Word, all ASCII | Paris | {english_stem} | english_stem | {pari}(1 row)CREATE TEXT SEARCH DICTIONARY my_synonym ( TEMPLATE = synonym, SYNONYMS = my_synonyms, FILEPATH = 'obs://bucket01/obs.example.com accesskey=xxxxx secretkey=xxxxx region=cn-north-1');ALTER TEXT SEARCH CONFIGURATION english ALTER MAPPING FOR asciiword WITH my_synonym, english_stem;SELECT * FROM ts_debug('english', 'Paris'); alias | description | token | dictionaries | dictionary | lexemes -----------+-----------------+-------+---------------------------+------------+--------- asciiword | Word, all ASCII | Paris | {my_synonym,english_stem} | my_synonym | {paris}(1 row)SELECT * FROM ts_debug('english', 'paris'); alias | description | token | dictionaries | dictionary | lexemes -----------+-----------------+-------+---------------------------+------------+--------- asciiword | Word, all ASCII | Paris | {my_synonym,english_stem} | my_synonym | {paris}(1 row)ALTER TEXT SEARCH DICTIONARY my_synonym ( CASESENSITIVE=true);SELECT * FROM ts_debug('english', 'Paris'); alias | description | token | dictionaries | dictionary | lexemes -----------+-----------------+-------+---------------------------+------------+--------- asciiword | Word, all ASCII | Paris | {my_synonym,english_stem} | my_synonym | {paris}(1 row)SELECT * FROM ts_debug('english', 'paris'); alias | description | token | dictionaries | dictionary | lexemes -----------+-----------------+-------+---------------------------+------------+--------- asciiword | Word, all ASCII | Paris | {my_synonym,english_stem} | my_synonym | {pari}(1 row) 其中，同义词词典文件全名为my_synonyms.syn，所在目录为 'obs://bucket01/obs.example.com accesskey=xxxxx secretkey=xxxxx region=cn-north-1'。关于创建词典的语法和更多参数，请参见CREATE TEXT SEARCH DICTIONARY。星号（*）可用于词典文件中的同义词结尾，表示该同义词是一个前缀。在to_tsvector()中该星号将被忽略，但在to_tsquery()中会匹配该前缀并对应输出结果（参照处理tsquery一节）。假设词典文件synonym_sample.syn内容如下： 12345 postgres pgsqlpostgresql pgsql postgre pgsql gogle googl indices index* 创建并使用词典： 1 2 3 4 5 6 7 8 91011121314151617181920212223242526272829303132333435363738 CREATE TEXT SEARCH DICTIONARY syn ( TEMPLATE = synonym, SYNONYMS = synonym_sample);SELECT ts_lexize('syn','indices'); ts_lexize ----------- {index}(1 row)CREATE TEXT SEARCH CONFIGURATION tst (copy=simple);ALTER TEXT SEARCH CONFIGURATION tst ALTER MAPPING FOR asciiword WITH syn;SELECT to_tsvector('tst','indices'); to_tsvector ------------- 'index':1(1 row)SELECT to_tsquery('tst','indices'); to_tsquery ------------ 'index':*(1 row)SELECT 'indexes are very useful'::tsvector; tsvector --------------------------------- 'are' 'indexes' 'useful' 'very'(1 row)SELECT 'indexes are very useful'::tsvector @@ to_tsquery('tst','indices'); ?column? ---------- t(1 row)

数据仓库服务 GaussDB(DWS)

数据仓库服务 GaussDB(DWS)-复制函数:pg_stat_get_stream_replications()

pg_stat_get_stream_replications() 描述：显示当前DN上所有的复制统计信息。返回值类型：record 函数返回信息如下：表5 pg_stat_get_stream_replications() 名称类型描述 local_role text 本地的角色 static_connections integer 连接统计 db_state text 数据库状态 detail_information text 详细信息示例： 12345 SELECT * FROM pg_stat_get_stream_replications(); local_role | static_connections | db_state | detail_information------------+--------------------+----------+-------------------- Normal | 0 | Normal | Normal(1 row)

数据仓库服务 GaussDB(DWS)

数据仓库服务 GaussDB(DWS)-复制函数:pg_stat_get_wal_receiver()

pg_stat_get_wal_receiver() 描述：显示当前DN上所有的WAL复制接收线程的统计信息。返回值类型：record 函数返回信息如下：表4 pg_stat_get_wal_receiver() 名称类型描述 receiver_pid integer 当前receiver的pid local_role text 本地的角色 peer_role text 远端的角色 peer_state text 远端的状态 state text 当前receiver的复制状态 sender_sent_location text 发送端发送的LSN位置 sender_write_location text 发送端write的LSN位置 sender_flush_location text 发送端flush的LSN位置 sender_replay_location text 发送端replay的LSN位置 receiver_received_location text 接收端received的LSN位置 receiver_write_location text 接收端write的LSN位置 receiver_flush_location text 接收端flush的LSN位置 receiver_replay_location text 接收端replay的LSN位置 sync_percent text 同步百分比 channel text WALReceiver的信道信息

数据仓库服务 GaussDB(DWS)

数据仓库服务 GaussDB(DWS)-复制函数:pg_stat_xlog_space()

pg_stat_xlog_space() 描述：显示当前DN上Xlog空间使用信息。返回值类型：record 函数返回信息如下：表6 pg_stat_xlog_space() 名称类型描述 xlog_files bigint pg_xlog目录下，去除backup、archive_status等子目录，所有识别为xlog文件的数目。 xlog_size bigint pg_xlog目录下，去除backup、archive_status等子目录，所有识别为xlog文件的文件大小之和，单位为MB。 other_size bigint pg_xlog目录下backup、archive_status等子目录文件的大小之和，单位为MB。示例： 12345 SELECT * FROM pg_stat_xlog_space(); xlog_files | xlog_size | other_size------------+-----------+------------ 79 | 1264 | 0(1 row)

数据仓库服务 GaussDB(DWS)

数据仓库服务 GaussDB(DWS)-复制函数:pgxc_stat_xlog_space()

pgxc_stat_xlog_space() 描述：显示所有主DN上Xlog空间使用信息。返回值类型：record 函数返回信息如下：表7 pgxc_stat_xlog_space() 名称类型描述 node_name name 节点名称 xlog_files bigint pg_xlog目录下，去除backup、archive_status等子目录，所有识别为xlog文件的数目。 xlog_size bigint pg_xlog目录下，去除backup、archive_status等子目录，所有识别为xlog文件的文件大小之和，单位为MB。 other_size bigint pg_xlog目录下backup、archive_status等子目录文件的大小之和，单位为MB。示例： 1 2 3 4 5 6 7 8 910 SELECT * FROM pgxc_stat_xlog_space(); node_name | xlog_files | xlog_size | other_size--------------+------------+-----------+------------ dn_6001_6002 | 73 | 1168 | 0 dn_6003_6004 | 73 | 1168 | 0 dn_6005_6006 | 73 | 1168 | 0 cn_5003 | 79 | 1264 | 0 cn_5001 | 72 | 1152 | 0 cn_5002 | 73 | 1168 | 0(6 rows)

数据仓库服务 GaussDB(DWS)

数据仓库服务 GaussDB(DWS)-复制函数:pg_create_physical_replication_slot ('slot_name', isDummyStandby)

pg_create_physical_replication_slot ('slot_name', isDummyStandby) 描述：创建物理复制槽。参数说明： slot_name 流复制槽名称。取值范围：字符串，不支持除字母，数字，以及（_?-.）以外的字符。 isDummyStandby 复制槽是否为从备。取值范围：布尔值，支持true或false。返回值类型：name, text 备注：第一个返回值表示slot_name，第二个返回值表示该物理复制槽解码的起始LSN位置。

数据仓库服务 GaussDB(DWS)

数据仓库服务 GaussDB(DWS)-复制函数:pg_get_replication_slots()

pg_get_replication_slots() 描述：显示当前DN上所有的复制槽信息。返回值类型：record 函数返回信息如下：表1 pg_get_replication_slots()字段名称类型描述 slot_name text 复制槽的名称 plugin name 逻辑复制槽对应的输出插件名 slot_type text 复制槽的类型 datoid oid 复制槽的数据库OID active boolean 复制槽是否为激活状态 xmin xid 复制槽事务标识 catalog_xmin text 逻辑复制槽对应的最早解码事务标识 restart_lsn text 复制槽的Xlog文件信息 dummy_standby boolean 复制槽是否为从备示例： 12345 SELECT * FROM pg_get_replication_slots(); slot_name | plugin | slot_type | datoid | active | xmin | catalog_xmin | restart_lsn | dummy_standby-----------------+--------+-----------+--------+--------+------+--------------+-------------------+--------------- gs_roach_common | | physical | 0 | f | | 602861775 | FFFFFFFF/FFFFFFFF | f(1 row)

数据仓库服务 GaussDB(DWS)

数据仓库服务 GaussDB(DWS)-复制函数:pg_stat_get_data_senders()

pg_stat_get_data_senders() 描述：显示当前DN上所有的数据页复制发送线程的统计信息。返回值类型：record 函数返回信息如下：表2 pg_stat_get_data_senders()字段名称类型描述 pid bigint 线程pid sender_pid integer 当前sender的pid local_role text 本地的角色 peer_role text 对端的角色 state text 当前sender的复制状态 catchup_start timestamp with time zone catchup启动的时间 catchup_end timestamp with time zone catchup结束的时间 queue_size text 数据队列大小 queue_lower_tail text 数据队列尾1位置 queue_header text 数据队列头位置 queue_upper_tail text 数据队列尾2位置 send_position text 发送端发送的位置 receive_position text 接收端接收的位置 catchup_type text catchup方式为全量还是增量 catchup_bcm_filename text catchup当前执行的bcm文件 catchup_bcm_finished integer catchup已操作完成的bcm文件数量 catchup_bcm_total integer catchup总共需要操作的bcm文件数量 catchup_percent text catchup已经操作完成的百分比 catchup_remaining_time text catchup预估剩余时间

数据仓库服务 GaussDB(DWS)

数据仓库服务 GaussDB(DWS)-复制函数:pg_logical_slot_peek_changes('slot_name', 'LSN', upto_nchanges, 'options_name', 'options_value')

pg_logical_slot_peek_changes('slot_name', 'LSN', upto_nchanges, 'options_name', 'options_value') 描述：解码并不推进流复制槽（下次解码可以再次获取本次解出的数据）。参数说明： slot_name 流复制槽名称。取值范围：字符串，不支持除字母，数字，以及（_?-.）以外的字符。 LSN 日志的LSN，表示只解码小于等于此LSN的日志。取值范围：字符串（LSN，格式为xlogid/xrecoff），如'1/2AAFC60'。为NULL时表示不对解码截止的日志位置做限制。 upto_nchanges 解码条数（包含begin和commit）。假设一共有三条事务，分别包含3、5、7条记录，如果upto_nchanges为4，那么会解码出前两个事务共8条记录。解码完第二条事务时发现解码条数记录大于等于upto_nchanges，会停止解码。取值范围：非负整数。 LSN和upto_nchanges中任一参数达到限制，解码都会结束。 options：此项为可选参数。 include-xids 解码出的data列是否包含xid信息。取值范围：0或1，默认值为1。 0：设为0时，解码出的data列不包含xid信息。 1：设为1时，解码出的data列包含xid信息。 skip-empty-xacts 解码时是否忽略空事务信息。取值范围：0或1，默认值为0。 0：设为0时，解码时不忽略空事务信息。 1：设为1时，解码时会忽略空事务信息。 include-timestamp 解码信息是否包含commit时间戳。取值范围：0或1，默认值为0。 0：设为0时，解码信息不包含commit时间戳。 1：设为1时，解码信息包含commit时间戳。返回值类型：text, uint, text 备注：函数返回解码结果，每一条解码结果包含三列，对应上述返回值类型，分别表示LSN位置、xid和解码内容。

数据仓库服务 GaussDB(DWS)

数据仓库服务 GaussDB(DWS)-复制函数:pg_logical_slot_get_changes('slot_name', 'LSN', upto_nchanges, 'options_name', 'options_value')

pg_logical_slot_get_changes('slot_name', 'LSN', upto_nchanges, 'options_name', 'options_value') 描述：解码并推进流复制槽。参数说明：与pg_logical_slot_peek_changes一致，详细内容请参见pg_logical_slot_peek_changes('slot_name', 'LSN', upto_nchanges, 'options_name', 'options_value')。

数据仓库服务 GaussDB(DWS)

数据仓库服务 GaussDB(DWS)-复制函数:pg_stat_get_wal_senders()

pg_stat_get_wal_senders() 描述：显示当前DN上所有的WAL复制发送线程的统计信息。返回值类型：record 函数返回信息如下：表3 pg_stat_get_wal_senders()字段名称类型描述 pid bigint 线程pid sender_pid integer 当前sender的pid local_role text 本地的角色 peer_role text 对端的角色 peer_state text 对端的状态 state text 当前sender的复制状态 catchup_start timestamp with time zone catchup启动的时间 catchup_end timestamp with time zone catchup结束的时间 sender_sent_location text 发送端发送的LSN位置 sender_write_location text 发送端write的LSN位置 sender_flush_location text 发送端flush的LSN位置 sender_replay_location text 发送端replay的LSN位置 receiver_received_location text 接收端received的LSN位置 receiver_write_location text 接收端write的LSN位置 receiver_flush_location text 接收端flush的LSN位置 receiver_replay_location text 接收端replay的LSN位置 sync_percent text 同步百分比 sync_state text 同步状态（异步复制，同步复制，还是潜在同步者） sync_priority integer 同步复制的优先级（0表示异步） sync_most_available text 在备机同步失败时，是否阻塞主机 channel text WALSender的信道信息

数据仓库服务 GaussDB(DWS)

数据仓库服务 GaussDB(DWS)-复制函数:pg_replication_slot_advance ('slot_name', 'LSN')

pg_replication_slot_advance ('slot_name', 'LSN') 描述：直接推进流复制槽到指定LSN，不输出解码结果。参数说明： slot_name 流复制槽名称。取值范围：字符串，不支持除字母，数字，以及（_?-.）以外的字符。 LSN 推进到的日志LSN位置，下次解码时只会输出提交位置比该LSN大的事务结果。如果输入的LSN比当前流复制槽记录的推进位置还要小，则直接返回；如果输入的LSN比当前最新物理日志LSN还要大，则推进到当前最新物理日志LSN。取值范围：字符串（LSN，格式为xlogid/xrecoff）。返回值类型：name, text 备注：返回值分别对应slot_name和实际推进至的LSN。

数据仓库服务 GaussDB(DWS)

数据仓库服务 GaussDB(DWS)-复制函数:pg_create_logical_replication_slot('slot_name', 'plugin_name')

pg_create_logical_replication_slot('slot_name', 'plugin_name') 描述：创建逻辑复制槽。参数说明： slot_name 流复制槽名称。取值范围：字符串，不支持除字母，数字，以及（_?-.）以外的字符。 plugin_name 插件名称。取值范围：字符串，当前只支持“mppdb_decoding”。返回值类型：name, text 备注：第一个返回值表示slot_name，第二个返回值表示该逻辑复制槽解码的起始LSN位置。

数据仓库服务 GaussDB(DWS)

数据仓库服务 GaussDB(DWS)-值存储:示例

示例 character存储类型转换。对一个目标列定义为character(20)的语句，下面的语句显示存储值的长度正确： 1 2 3 4 5 6 7 8 910111213 CREATE TABLE x1( customer_sk integer, customer_id char(20), first_name char(6), last_name char(8))with (orientation = column,compression=middle)distribute by hash (last_name);INSERT INTO x1(customer_sk, customer_id, first_name) VALUES (3769, 'abcdef', 'Grace');SELECT customer_id, octet_length(customer_id) FROM x1; 图1 存储值长度两个unknown文本缺省解析成text，这样就允许||操作符解析成text连接。然后操作符的text结果转换成bpchar("空白填充的字符型"， character类型内部名称)以匹配目标字段类型。不过，从text到bpchar的转换是二进制兼容的，这样的转换是隐含的并且实际上不做任何函数调用。最后，在系统表里找到长度转换函数bpchar(bpchar, integer, boolean) 并且应用于该操作符的结果和存储的字段长。这个类型相关的函数执行所需的长度检查和额外的空白填充。

数据仓库服务 GaussDB(DWS)

云服务器内容精选

数据仓库服务 GaussDB(DWS)

7*24

备案

专业服务

退订

建议反馈

售前咨询热线