华为云用户手册

数据仓库服务 GAUSSDB(DWS)-DWS如何实现行转列及列转行？:列转行

列转行使用union all，将各科目（math、physics和literature）整合为一列，示例如下： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 SELECT * FROM ( SELECT name, 'math' AS subject, math AS score FROM students_info1 union all SELECT name, 'physics' AS subject, physics AS score FROM students_info1 union all SELECT name, 'literature' AS subject, literature AS score FROM students_info1 ) order by name; name | subject | score ------+------------+------- jack | math | 90 jack | physics | 95 jack | literature | 95 lily | math | 95 lily | physics | 80 lily | literature | 92 matu | math | 75 matu | physics | 90 matu | literature | 85 (9 rows)

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS如何实现行转列及列转行？:示例表

示例表创建行存表students_info并插入数据。 1 2 3 4 5 6 7 8 9 10 CREATE TABLE students_info(name varchar(20),subject varchar(100),score bigint) distribute by hash(name); INSERT INTO students_info VALUES('lily','math',95); INSERT INTO students_info VALUES('lily','physics',80); INSERT INTO students_info VALUES('lily','literature',92); INSERT INTO students_info VALUES('matu','math',75); INSERT INTO students_info VALUES('matu','physics',90); INSERT INTO students_info VALUES('matu','literature',85); INSERT INTO students_info VALUES('jack','math',90); INSERT INTO students_info VALUES('jack','physics',95); INSERT INTO students_info VALUES('jack','literature',95); 查看表students_info信息。 1 2 3 4 5 6 7 8 9 10 11 12 SELECT * FROM students_info; name | subject | score ------+------------+------- matu | math | 75 matu | physics | 90 matu | literature | 85 lily | math | 95 lily | physics | 80 lily | literature | 92 jack | math | 90 jack | physics | 95 jack | literature | 95 创建列存表students_info1并插入数据。 1 2 3 4 CREATE TABLE students_info1(name varchar(20), math bigint, physics bigint, literature bigint) with (orientation = column) distribute by hash(name); INSERT INTO students_info1 VALUES('lily',95,80,92); INSERT INTO students_info1 VALUES('matu',75,90,85); INSERT INTO students_info1 VALUES('jack',90,95,95); 查看表students_info1信息。 1 2 3 4 5 6 7 SELECT * FROM students_info1; name | math | physics | literature ------+------+---------+------------ matu | 75 | 90 | 85 lily | 95 | 80 | 92 jack | 90 | 95 | 95 (3 rows)

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS如何实现行转列及列转行？:静态行转列

静态行转列静态行转列需要手动指定每一列的列名，如果存在则取其对应值，否则将赋其默认值0。 1 2 3 4 5 6 7 8 9 10 SELECT name, sum(case when subject='math' then score else 0 end) as math, sum(case when subject='physics' then score else 0 end) as physics, sum(case when subject='literature' then score else 0 end) as literature FROM students_info GROUP BY name; name | math | physics | literature ------+------+---------+------------ matu | 75 | 90 | 85 lily | 95 | 80 | 92 jack | 90 | 95 | 95 (3 rows)

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS如何实现行转列及列转行？:动态行转列

动态行转列 8.1.2及以上集群版本可使用GROUP_CONCAT生成列存语句。 1 2 3 4 5 6 7 8 9 10 SELECT group_concat(concat('sum(IF(subject = ''', subject, ''', score, 0)) AS "', name, '"'))FROM students_info; group_concat ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- ------------------------ sum(IF(subject = 'literature', score, 0)) AS "jack",sum(IF(subject = 'literature', score, 0)) AS "lily",sum(IF(subject = 'literature', score, 0)) AS "matu",sum(IF(subject = 'math', score, 0)) AS "jack",sum(IF (subject = 'math', score, 0)) AS "lily",sum(IF(subject = 'math', score, 0)) AS "matu",sum(IF(subject = 'physics', score, 0)) AS "jack",sum(IF(subject = 'physics', score, 0)) AS "lily",sum(IF(subject = 'physics ', score, 0)) AS "matu" (1 row) 8.1.1及更低版本中可用LISTAGG生成列存语句。 1 2 3 4 5 6 7 8 SELECT listagg(concat('sum(case when subject = ''', subject, ''' then score else 0 end) AS "', subject, '"'),',') within GROUP(ORDER BY 1)FROM (select distinct subject from students_info); listagg ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- -- sum(case when subject = 'literature' then score else 0 end) AS "literature",sum(case when subject = 'physics' then score else 0 end) AS "physics",sum(case when subject = 'math' then score else 0 end) AS "math " (1 row) 再通过视图动态重建： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 CREATE OR REPLACE FUNCTION build_view() RETURNS VOID LANGUAGE plpgsql AS $$ DECLARE sql text; rec record; BEGIN sql := 'select LISTAGG( CONCAT( ''sum(case when subject = '''''', subject, '''''' then score else 0 end) AS "'', subject, ''"'' ) ,'','' ) within group(order by 1) from (select distinct subject from students_info);'; EXECUTE sql INTO rec; sql := 'drop view if exists get_score'; EXECUTE sql; sql := 'create view get_score as select name, ' || rec.LISTAGG || ' from students_info group by name'; EXECUTE sql; END$$; 执行重建： 1 CALL build_view(); 查询视图： 1 2 3 4 5 6 7 SELECT * FROM get_score; name | literature | physics | math ------+------------+---------+------ matu | 85 | 90 | 75 lily | 92 | 80 | 95 jack | 95 | 95 | 90 (3 rows)

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS如何实现行转列及列转行？:场景介绍

场景介绍以学生成绩为例：老师会按照学科录入成绩，每科老师都会单独录入每个学生对应学科的成绩，而每位学生只关注自己各科的成绩。如果把老师录入数据作为原始表，那么学生查看自己的成绩就要用到行转列；如果让学生自己填写各科的成绩并汇总，然后老师去查自己学科所有学生的成绩，那就是列转行。行转列与列转行的示意图如下：图1 示意图行转列将多行数据转换成一行显示，或将一列数据转换成多列显示。列转行将一行数据转换成多行显示，或将多列数据转换成一列显示。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS语句处于idle in transaction状态常见场景:场景二：存储过程中有DDL语句，该存储过程结束前，其他节点上DDL语句执行完后的状态是idle in transaction

场景二：存储过程中有DDL语句，该存储过程结束前，其他节点上DDL语句执行完后的状态是idle in transaction 先创建存储过程： 1 2 3 4 5 6 7 8 9 10 11 CREATE OR REPLACE FUNCTION public.test_sleep() RETURNS void LANGUAGE plpgsql AS $$ BEGIN truncate t1; truncate t2; EXECUTE IMMEDIATE 'select pg_sleep(6)'; RETURN; END$$; 再执行如下命令查看PGXC_STAT_ACTIVITY视图： 1 SELECT coorname,pid,query_id,state,query,usename FROM pgxc_stat_activity WHERE usename='jack'; 查看结果显示：truncate t2处于idle in transaction状态，coorname为coordinator2。说明cn2上该语句已经执行完成，该存储过程在执行下一条语句。解决方法：此类场景是由于存储过程执行慢导致，等存储过程执行完成即可，也可考虑优化存储过程中执行时间较长的语句。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS语句处于idle in transaction状态常见场景:场景一：事务开启后没有提交，语句处于idle in transaction

场景一：事务开启后没有提交，语句处于idle in transaction 手动BEGIN/START TRANSACTION开启事务，执行某语句后，不执行COMMIT/ROLLBACK，此时执行如下命令查看视图PGXC_STAT_ACTIVITY： 1 SELECT state, query, query_id FROM pgxc_stat_activity; 查看结果显示：该语句状态为idle in transaction。解决方法：这种场景下需要手动对开启的事务执行COMMIT/ROLLBACK即可。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS语句处于idle in transaction状态常见场景:场景三：大量SAVEPOINT/RELEASE语句处于idle in transaction（8.1.0之前集群版本）

场景三：大量SAVEPOINT/RELEASE语句处于idle in transaction（8.1.0之前集群版本）执行如下命令查看PGXC_STAT_ACTIVITY视图： 1 SELECT coorname,pid,query_id,state,query,usename FROM pgxc_stat_activity WHERE usename='jack'; 结果显示SAVEPOINT/RELEASE语句处于idle in transaction。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS哪些系统表不能做VACUUM FULL:8.1.3及以上版本

8.1.3及以上版本 8.1.3及以上版本的集群，AUTO VACUUM默认是打开的（由GUC参数autovacuum控制），用户通过设置对应的GUC参数后，系统会自动触发所有系统表和用户的行存表进行VACUUM FULL，用户不需要手动执行vacuum。 autovacuum_max_workers = 0，系统表和普通表都不会触发。 autovacuum = off，普通表不会触发，但系统表会触发。以上仅针对行存表的AUTO VACCUM触发，如果需要针对列存表做自动触发VACUUM，还需要用户在管理控制台上配置智能调度任务。具体参见运维计划。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS查询时结果不一致的常见场景和解决方法:数据库兼容性行为配置项behavior_compat_options设置不同

数据库兼容性行为配置项behavior_compat_options设置不同场景：add_months函数计算结果不一致。 database1: 1 2 3 4 5 SELECT add_months('2018-02-28',3) from dual; add_months --------------------- 2018-05-28 00:00:00 (1 row) database2: 1 2 3 4 5 SELECT add_months('2018-02-28',3) from dual; add_months --------------------- 2018-05-31 00:00:00 (1 row) 原因分析：数据库兼容性配置项behavior_compat_options不同会导致部分行为不同，该参数选项可参考behavior_compat_options中的相关选项描述。此场景中behavior_compat_options配置项中的end_month_calculate参数控制add_months函数计算逻辑配置项。设置end_month_calculate配置项时，如果param1的日期（Day字段）为月末，并且param1的日期（Day字段）比result月份的月末日期比小，计算结果中的日期字段（Day字段）和result的月末日期保持一致。解决方法：需要将数据库中参数behavior_compat_options的兼容性配置项设置为一致。该参数类型为USERSET类型，可session级别设置或集群级修改。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS查询时结果不一致的常见场景和解决方法:使用UNLOGGED表

使用UN LOG GED表场景：使用unlogged表后，在集群重启后，关联查询结果集异常，查看unlogged表缺少部分数据。原因分析：如果设置max_query_retry_times为0，且在建表时指定UNLOGGED关键字，则创建的表为非日志表。在非日志表中写入的数据不会被写入到预写日志中，这样就会比普通表快很多。但是非日志表在冲突、执行操作系统重启、强制重启、切断电源操作或异常关机后会被自动截断，会造成数据丢失的风险。非日志表中的内容也不会被复制到备服务器中。在非日志表中创建的索引也不会被自动记录。因此当集群发生异常重启（进程重启、节点故障、集群重启）时，会导致部分内存中的数据未及时落盘，造成部分数据丢失，从而导致结果集异常。解决方法： unlogged表在集群异常情况下的安全性无法保证，一般不能作为业务表使用，更多的场景是作为临时表使用。当出现集群故障后，为了保证数据正常，需要重建unlogged表或将数据备份后重新导入数据库。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS查询时结果不一致的常见场景和解决方法:自定义函数属性设置不合理

自定义函数属性设置不合理场景：自定义函数get_count()并调用该函数出现结果不一致场景。 1 2 3 4 5 6 7 8 9 10 11 CREATE FUNCTION get_count() returns int SHIPPABLE as $$ declare result int; begin result = (select count(*) from test); --test表是hash表 return result; end; $$ language plpgsql; 调用该函数。 1 2 3 4 5 6 7 8 9 10 11 SELECT get_count(); get_count ----------- 2106 (1 row) SELECT get_count() FROM t_src; get_count ----------- 1032 (1 row) 原因分析：由于该函数指定了SHIPPABLE的函数属性，因此生成计划时该函数会下推到DN上执行，该函数下推到DN后，由于函数定义中的test表是hash表，因此每个DN上只有该表的一部分数据，所以select count(*) from test; 返回的结果不是test表全量数据的结果，而是每个DN上部分数据的结果，因此导致加上from表后函数返回预期发生变化。解决方法：以下两种方法任选其一即可（推荐第一种方法）：将函数改为不下推：ALTER FUNCTION get_count() not shippable; 将函数中用到的表改为复制表，这样每个DN上都是一份该表的全量数据，即使下推到DN执行，也能保证结果集符合预期。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS查询时结果不一致的常见场景和解决方法:数据库兼容模式

数据库兼容模式场景：在数据库中查询空串结果不一致。 database1（TD兼容模式）: 1 2 3 4 5 td=# select '' is null; isnull -------- f (1 row) database2（ORA兼容模式）: 1 2 3 4 5 ora=# select '' is null; isnull -------- t (1 row) 原因分析：查询空串结果不同是由于不同数据库兼容模式下空串与null语法有差异导致。目前，DWS支持三种数据库兼容模式：Oracle、TD和MySql，不同兼容模式下语法和行为存在差异，兼容性差异说明可参考Oracle、Teradata和MySQL语法兼容性差异。不同兼容模式下的database表现出不同的兼容性行为属于正常现象。可以通过查看select datname, datcompatibility from pg_database;确认数据库兼容性设置是否相同。解决方法：这种场景下只能将两个database的兼容性模式设置为一致的才能解决。Database的DBCOMPATIBILITY属性不支持ALTER，只能通过新建数据库的方法，在创建数据库时指定相同的DBCOMPATIBILITY属性解决。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS查询时结果不一致的常见场景和解决方法:子查询limit

子查询limit 场景：子查询中使用limit，两次查询结果不一致。 1 2 3 4 5 6 7 8 9 10 11 SELECT * FROM (select a from test limit 1 ) order by 1; a --- 5 (1 row) SELECT * FROM (select a from test limit 1 ) order by 1; a --- 1 (1 row) 原因分析：子查询中的limit会导致获取随机结果，从而最终查询结果为随机提取。解决方法：要保证最终查询结果的稳定，需避免在子查询中使用limit。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS查询时结果不一致的常见场景和解决方法:子视图/子查询中使用排序

子视图/子查询中使用排序场景：创建表test和视图v后，子查询中使用排序查询表test，出现查询结果不一致。 1 2 3 4 5 6 CREATE TABLE test(a serial ,b int); INSERT INTO test(b) VALUES(1); INSERT INTO test(b) SELECT b FROM test; … INSERT INTO test(b) SELECT b FROM test; CREATE VIEW v as SELECT * FROM test ORDER BY a; 问题SQL： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 SELECT * FROM v limit 1; a | b ---+--- 3 | 1 (1 row) SELECT * FROM (select * from test order by a) limit 10; a | b ----+--- 14 | 1 (1 row) SELECT * FROM test order by a limit 10; a | b ---+--- 1 | 1 (1 row) 原因分析：对于子视图和子查询中order by是无效的。解决方法：不建议在子视图和子查询中使用order by，若要保证结果有序，需在最外层查询中使用order by。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS查询时结果不一致的常见场景和解决方法:使用string_agg

使用string_agg 场景：使用string_agg查询表employee，出现查询结果不一致。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 SELECT * FROM employee; empno | ename | job | mgr | hiredate | sal | comm | deptno -------+--------+---------+------+---------------------+-------+------+-------- 7654 | MARTIN | SALEMAN | 7698 | 2022-11-08 00:00:00 | 12000 | 1400 | 30 7566 | JONES | MANAGER | 7839 | 2022-11-08 00:00:00 | 32000 | 0 | 20 7499 | ALLEN | SALEMAN | 7698 | 2022-11-08 00:00:00 | 16000 | 300 | 30 (3 rows) SELECT count(*) FROM (select deptno, string_agg(ename, ',') from employee group by deptno) t1, (select deptno, string_agg(ename, ',') from employee group by deptno) t2 where t1.string_agg = t2.string_agg; count ------- 2 (1 row) SELECT count(*) FROM (select deptno, string_agg(ename, ',') from employee group by deptno) t1, (select deptno, string_agg(ename, ',') from employee group by deptno) t2 where t1.string_agg = t2.string_agg; count ------- 1 (1 row) 原因分析： String_agg函数的作用是将组内的数据合并成一行，但是如果某用户的用法是string_agg(ename, ',') ，结果集就是不稳定的，因为没有指定组合的顺序。例如，上述语句中，对于select deptno, string_agg(ename, ',') from employee group by deptno; 输出结果既可以是： 1 30 | ALLEN,MARTIN 也可能是： 1 30 |MARTIN,ALLEN 两个结果都是合理的，因此上述关联场景下，有可能出现t1这个subquery中的结果和t2这个subquery中的结果对于deptno=30时的输出结果不一致。解决方法： String_agg中增加order by排序，保证按顺序拼接。 1 SELECT count(*) FROM (select deptno, string_agg(ename, ',' order by ename desc) from employee group by deptno) t1 ,(select deptno, string_agg(ename, ',' order by ename desc) from employee group by deptno) t2 where t1.string_agg = t2.string_agg;

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS查询时结果不一致的常见场景和解决方法:窗口函数中使用排序后取部分结果

窗口函数中使用排序后取部分结果场景：窗口函数row_number()中使用排序后查询表t3的c列，两次查询结果不同。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 SELECT * FROM t3 order by 1,2,3; a | b | c ---+---+--- 1 | 2 | 1 1 | 2 | 2 1 | 2 | 3 (3 rows) SELECT c,rn FROM (select c,row_number() over(order by a,b) as rn from t3) where rn = 1; c | rn ---+---- 1 | 1 (1 row) SELECT c,rn FROM (select c,row_number() over(order by a,b) as rn from t3) where rn = 1; c | rn ---+---- 3 | 1 (1 row) 原因分析：如上所示，执行同一条语句：select c,rn from (select c,row_number() over(order by a,b) as rn from t3) where rn = 1; 两次查询结果不同，因为在窗口函数的排序列a、b上存在重复值1、2且重复值在c列上的值不同，就会导致每次按照a，b列排序结果取第一条时，所取的数据是随机的，造成结果集不一致。解决方法：该场景需要将取值列c列也加到排序中，使排序结果获取的第一条数据固定。 1 2 3 4 5 SELECT c,rn FROM (select c,row_number() over(order by a,b,c) as rn from t3) where rn = 1; c | rn ---+---- 1 | 1 (1 row)

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS以pg_toast_temp*或pg_temp*开头的Schema是什么？

DWS以pg_toast_temp*或pg_temp*开头的Schema是什么？查询Schema列表的时候，发现查询结果存在pg_temp*或pg_toast_temp*的Schema，如下图所示。 1 SELECT * FROM pg_namespace; 这些Schema是在创建临时表时，该临时表通过每个会话独立的以pg_temp开头的Schema来保证只对当前会话可见，因此，不建议用户在日常操作中手动删除以pg_temp，pg_toast_temp开头的Schema。临时表只在当前会话可见，本会话结束后会自动删除，这些相应的Schema也会被删除。父主题：数据库使用

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS查询时索引失效场景解析:场景一：返回结果集很大

场景一：返回结果集很大以行存表的Seq Scan和Index Scan为例： Seq Scan：按照表的记录的排列顺序从头到尾依次检索扫描，每次扫描要取到所有的记录。这也是最简单最基础的扫表方式，扫描的代价比较大。 Index Scan：对于指定的查询，先扫描一遍索引，从索引中找到符合要求的记录的位置（指针），再定位到表中具体的Page去获取，即先走索引，再读表数据。因此，根据两种扫描方式的特点可知，多数情况下，Index Scan要比Seq Scan快。但是如果获取的结果集占所有数据的比重很大时（超过70%），这时Index Scan因为要先扫描索引再读表数据反而不如直接全表扫描的速度快。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS列存表的常用信息查询:查询数据在各DN分布

查询数据在各DN分布 1 2 3 4 5 6 7 8 9 10 SELECT table_skewness('my_table'); table_skewness ------------------------------------ ("dn_6007_6008 ",3,50.000%) ("dn_6009_6010 ",2,33.333%) ("dn_6003_6004 ",1,16.667%) ("dn_6001_6002 ",0,0.000%) ("dn_6005_6006 ",0,0.000%) ("dn_6011_6012 ",0,0.000%) (6 rows)

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS列存表的常用信息查询:查询某一有数据分布DN上分区P1所对应的cudesc和delta表名称

查询某一有数据分布DN上分区P1所对应的cudesc和delta表名称 1 2 3 4 5 6 EXECUTE DIRECT ON (dn_6003_6004) 'select a.relname from pg_class a, pg_partition b where (a.oid=b.reldeltarelid or a.oid=b.relcudescrelid) and b.relname=''my_table_p1'''; relname ---------------------- pg_delta_part_60317 pg_cudesc_part_60317 (2 rows)

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS列存表的常用信息查询:查询分区边界

查询分区边界 1 2 3 4 5 6 7 8 9 SELECT relname, partstrategy, boundaries FROM pg_partition where parentid=(select parentid from pg_partition where relname='my_table'); relname | partstrategy | boundaries -------------+--------------+------------ my_table | r | my_table_p1 | r | {600} my_table_p2 | r | {800} my_table_p3 | r | {950} my_table_p4 | r | {1000} (5 rows)

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS中“算子下盘”是什么含义？:算子下盘的概念

算子下盘的概念任何计算都需要耗费内存空间，差别在于多少而已，对于如果耗费内存过多，会导致其他作业运行内存空间不足，导致作业不稳定，因此需要对查询语句的作业内存使用进行限制，保证作业运行的稳定性。假如作业想要使用500M内存，但实际上因为内存限制最终只分配到300M内存，则需要把临时不用的数据写到磁盘上，内存中只保留正在使用的数据，这就是中间数据落盘的由来。当发生中间数据落盘时，称之为算子下盘。算子落盘空间太大除了会对查询性能有较大影响，还有可能导致数据库只读甚至磁盘满，因此DWS提供了用户算子空间限制，可以限制用户算子落盘的大小，在超限时查询报错退出。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS中“算子下盘”是什么含义？:哪些参数可以控制下盘

哪些参数可以控制下盘 work_mem：可以判断执行作业可下盘算子是否触发已使用内存量下盘点，当内存使用超过该参数后将触发算子下盘。该参数仅在非内存自适应场景（enable_dynamic_workload=off）时生效。work_mem参数设置通常是一个权衡，即要保证并发的吞吐量，又要保证单查询作业的性能，故需要根据实际执行情况（结合Explain Performance输出）进行调优。 temp_file_limit：可以限制落盘算子的落盘文件大小，一般建议根据实际情况设置，防止下盘文件将磁盘空间占满，超过该值将报错退出。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS中“算子下盘”是什么含义？:如何判断语句是否发生了下盘

如何判断语句是否发生了下盘通过下盘文件确认：下盘文件位于实例目录的base/pgsql_tmp路径下，下盘文件以pgsql_tmp$queryid_$pid命名，可以根据queryid确认是哪条sql发生了下盘。根据等待视图（pgxc_thread_wait_status）确认：等待视图中，当出现write file时，表示发生了中间结果下盘。根据执行计划确认（explain performance）：performance中出现spill、written disk、temp file num等关键字时，说明对应的算子出现了下盘。根据topsql确认（前提：topsql功能已开启）：实时TopSQL语句或历史TopSQL语句中，spill_info字段中会包含下盘信息，如果该字段不为空，说明有DN实例出现了下盘。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS中“算子下盘”是什么含义？:如何避免下盘

如何避免下盘发生算子下盘时，算子运算数据将写入磁盘，由于磁盘操作相对内存访问缓慢导致性能下降，查询响应时间出现极大劣化，因此应尽可能避免查询执行过程中的算子下盘，建议使用以下方法：减小中间结果集：发生下盘时往往是由于中间结果集过大，因此可以增加过滤条件减少中间结果集大小。避免数据倾斜：数据倾斜严重时会导致单DN上数据量过大，引起单DN下盘。及时analyze：当统计信息不准时，行数估算可能偏小，导致计划选择非最优，从而出现下盘。单点调优：对业务sql进行单点调优。非内存自适应场景下，当中间结果集无法减少时，应根据实际情况适当调大work_mem参数。内存自适应场景下，内存使用配置要使得数据库可用内存尽量增大，减少下盘概率。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-如何将DWS联结查询的null结果替换成0？

如何将DWS联结查询的null结果替换成0？在执行outer join（left join、right join、full join）联结查询时，outer join在匹配失败的情况下结果集会补空，产生大量NULL值，可以在联结查询时将这部分null值替换为0。可使用coalesce函数，它的作用是返回参数列表中第一个非NULL的参数值。例如： 1 2 3 4 5 SELECT coalesce(NULL,'hello'); coalesce ---------- hello (1 row) 有表course1和表course2，使用left join对两表进行联结查询： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 SELECT * FROM course1; stu_id | stu_name | cour_name ----------+------------+-------------------- 20110103 | ALLEN | Math 20110102 | JACK | Programming Design 20110101 | MAX | Science (3 rows) SELECT * FROM course2; cour_id | cour_name | teacher_name ---------+--------------------+-------------- 1002 | Programming Design | Mark 1001 | Science | Anne (2 rows) SELECT course1.stu_name,course2.cour_id,course2.cour_name,course2.teacher_name FROM course1 LEFT JOIN course2 ON course1.cour_name = course2.cour_name ORDER BY 1; stu_name | cour_id | cour_name | teacher_name ------------+---------+--------------------+-------------- ALLEN | | | JACK | 1002 | Programming Design | Mark MAX | 1001 | Science | Anne (3 rows) 使用coalesce函数将查询结果中的空值替换为0或其他非0值： 1 2 3 4 5 6 7 8 9 10 11 12 13 SELECT course1.stu_name, coalesce(course2.cour_id,0) AS cour_id, coalesce(course2.cour_name,'NA') AS cour_name, coalesce(course2.teacher_name,'NA') AS teacher_name FROM course1 LEFT JOIN course2 ON course1.cour_name = course2.cour_name ORDER BY 1; stu_name | cour_id | cour_name | teacher_name ------------+---------+--------------------+-------------- ALLEN | 0 | NA | NA JACK | 1002 | Programming Design | Mark MAX | 1001 | Science | Anne (3 rows) 父主题：数据库使用

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-如何查看DWS表是行存还是列存？

如何查看DWS表是行存还是列存？表的存储方式由建表语句中的ORIENTATION参数控制，row表示行存，column表示列存。不指定ORIENTATION参数，默认为row行存。查看已创建的表是行存还是列存，可通过表定义函数PG_GET_TABLEDEF查询。如下orientation=column表示为列存表。目前暂不支持通过ALTER TABLE语句修改ORIENTATION参数，即行存表和列存表无法直接进行转换。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 SELECT * FROM PG_GET_TABLEDEF('customer_t1'); pg_get_tabledef ----------------------------------------------------------------------------------- SET search_path = tpchobs; + CREATE TABLE customer_t1 ( + c_customer_sk integer, + c_customer_id character(5), + c_first_name character(6), + c_last_name character(8) + ) + WITH (orientation=column, compression=middle, colversion=2.0, enable_delta=false)+ DISTRIBUTE BY HASH(c_last_name) + TO GROUP group_version1; (1 row) 父主题：数据库使用

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS字符截取函数substrb()、substr()及substring()的用法及差异:函数形式

函数形式 substrb()、substr()和substring()均为字符串截取函数，都可带两个或三个参数，用于提取字符串中指定截取的开始位置和截取的长度。函数定义如下： 1 2 3 substrb(string, from [, count]) substr(string, from [, count]) substring(string, from [, count]) 参数描述：从参数string中抽取子字符串，from表示抽取的起始位置，count表示抽取的字符串长度。返回值类型：text

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DWS字符截取函数substrb()、substr()及substring()的用法及差异:截取单位差异

截取单位差异 substrb()，按字节截取。 substr()，按字符截取。 substring()，按字符截取。以utf8编码为例，1个汉字占3个字节，当使用substrb()截取长度3的子串时，只能截取到一个字符，而substr()/substring()可以截取到三个字符。示例： 1 2 3 4 SELECT substrb('data数据库',3,5),substr('data数据库',3,5),substring('data数据库',3,5); substrb | substr | substring ---------+----------+----------- ta数 | ta数据库 | ta数据库

数据仓库服务 GAUSSDB(DWS)

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！