云数据库 GAUSSDB-CREATE DATABASE:参数说明
参数说明
- database_name
数据库名称。
取值范围:字符串,要符合标识符命名规范,且最大长度不超过63个字符。若超过63个字符,数据库会截断并保留前63个字符当作数据库名称。当数据库名称中包含大写字母时数据库会自动转换为小写字母,如果需要创建包含大写字母的数据库名称则需要使用双引号括起来。
标识符需要为小写字母(a~z)、大写字母(A~Z)、下划线(_)、数字(0~9)或美元符号($),且必须以字母或下划线开头。
- OWNER [ = ] user_name
可选。数据库所有者。缺省时,新数据库的所有者是当前用户。
取值范围:已存在的用户名。
- TEMPLATE [ = ] template
可选。模板名。即从哪一个模板创建新数据库。 GaussDB 采用从模板数据库复制的方式来创建新的数据库。初始时,GaussDB包含四个模板数据库template0、template1、templatea、templatem,以及一个默认的用户数据库postgres。
取值范围:template0、templatem、templatea。
- ENCODING [ = ] 'encoding'
可选。指定数据库使用的字符编码,可以是字符串(如'SQL_ASCII')、整数编号。
不指定时,对于M-Compatibility数据库,默认使用utf8编码;其他默认使用模版数据库的编码。模板数据库template0、template1和templatea的编码默认与操作系统环境相关。template1不允许修改字符编码,因此若要变更编码,请使用template0/templatea创建数据库。
常用取值:GBK、UTF8、Latin1、GB18030等,具体支持的字符集如下。
表1 支持的字符集 名称
描述
语言
是否服务器端?
ICU(International Components for Unicode)?
字节/字符
别名
BIG5
Big Five
繁体中文
否
否
1-2
WIN950, Windows950
EUC_CN
扩展UNIX编码-中国
简体中文
是
是
1-3
-
EUC_JP
扩展UNIX编码-日本
日文
是
是
1-3
-
EUC_JIS_2004
扩展UNIX编码-日本, JIS X 0213
日文
是
否
1-3
-
EUC_KR
扩展UNIX编码-韩国
韩文
是
是
1-3
-
EUC_TW
扩展UNIX编码-中国台湾
繁体中文
是
是
1-3
-
GB18030
国家标准
中文
是
否
1-4
-
GB18030_2022
国家标准
中文
是
否
1-4
-
GBK
扩展国家标准
简体中文
是
否
1-2
WIN936, Windows936
ISO_8859_5
ISO 8859-5, ECMA 113
拉丁语/西里尔语
是
是
1
-
ISO_8859_6
ISO 8859-6, ECMA 114
拉丁语/阿拉伯语
是
是
1
-
ISO_8859_7
ISO 8859-7, ECMA 118
拉丁语/希腊语
是
是
1
-
ISO_8859_8
ISO 8859-8, ECMA 121
拉丁语/希伯来语
是
是
1
-
JOHAB
JOHAB
韩语
否
否
1-3
-
KOI8R
KOI8-R
西里尔语(俄语)
是
是
1
KOI8
KOI8U
KOI8-U
西里尔语(乌克兰语)
是
是
1
-
LATIN1
ISO 8859-1, ECMA 94
西欧
是
是
1
ISO88591
LATIN2
ISO 8859-2, ECMA 94
中欧
是
是
1
ISO88592
LATIN3
ISO 8859-3, ECMA 94
南欧
是
是
1
ISO88593
LATIN4
ISO 8859-4, ECMA 94
北欧
是
是
1
ISO88594
LATIN5
ISO 8859-9, ECMA 128
土耳其语
是
是
1
ISO88599
LATIN6
ISO 8859-10, ECMA 144
日耳曼语
是
是
1
ISO885910
LATIN7
ISO 8859-13
波罗的海
是
是
1
ISO885913
LATIN8
ISO 8859-14
凯尔特语
是
是
1
ISO885914
LATIN9
ISO 8859-15
带欧罗巴和口音的LATIN1
是
是
1
ISO885915
LATIN10
ISO 8859-16, ASRO SR 14111
罗马尼亚语
是
否
1
ISO885916
MULE_INTERNAL
Mule内部编码
多语种编辑器
是
否
1-4
-
SJIS
Shift JIS
日语
否
否
1-2
Mskanji, ShiftJIS, WIN932, Windows932
SHIFT_JIS_2004
Shift JIS, JIS X 0213
日语
否
否
1-2
-
SQL_ASCII
未指定(见文本)
任意
是
否
1
-
UHC
统一韩语编码
韩语
否
否
1-2
WIN949, Windows949
UTF8
Unicode, 8-bit
所有
是
是
1-4
Unicode
WIN866
Windows CP866
西里尔语
是
是
1
ALT
WIN874
Windows CP874
泰语
是
否
1
-
WIN1250
Windows CP1250
中欧
是
是
1
-
WIN1251
Windows CP1251
西里尔语
是
是
1
WIN
WIN1252
Windows CP1252
西欧
是
是
1
-
WIN1253
Windows CP1253
希腊语
是
是
1
-
WIN1254
Windows CP1254
土耳其语
是
是
1
-
WIN1255
Windows CP1255
希伯来语
是
是
1
-
WIN1256
Windows CP1256
阿拉伯语
是
是
1
-
WIN1257
Windows CP1257
波罗的海
是
是
1
-
WIN1258
Windows CP1258
越南语
是
是
1
ABC, TCVN, TCVN5712, VSCII
ZHS16GBK
扩展国家标准
简体中文
是
否
1-2
-
- 需要注意并非所有的客户端API都支持上面列出的字符集。
- SQL_ASCII设置与其他设置表现得相当不同。如果服务器字符集是SQL_ASCII,服务器把字节值0-127根据ASCII标准解释,而字节值128-255则当作无法解析的字符。如果设置为SQL_ASCII,就不会有编码转换。因此,这个设置基本不是用来声明所使用的指定编码, 因为这个声明会忽略编码。在大多数情况下,如果你使用了任何非ASCII数据,那么使用SQL_ASCII设置都是不明智的,因为数据库将无法帮助你转换或者校验非ASCII字符。
- 指定新的数据库字符集编码必须与所选择的本地环境中(LC_COLLATE和LC_CTYPE)的设置兼容。
- 当指定的字符编码集为GBK、ZHS16GBK时,部分中文生僻字无法直接作为对象名。这是因为GBK第二个字节的编码范围在0x40-0x7E之间时,字节编码与ASCII字符@A-Z[\]^_`a-z{|}重叠。其中@[\]^_'{|}是数据库中的操作符,直接作为对象名时,会语法报错。例如“侤”字,GBK16进制编码为0x8240,第二个字节为0x40,与ASCII“@”符号编码相同,因此无法直接作为对象名使用。如果确实要使用,可以在创建和访问对象时,通过增加双引号来规避这个问题。
- 若客户端编码为A,服务器端编码为B,则需要满足数据库中存在编码格式A与B的转换。数据库能够支持的所有的编码格式转换详见系统表PG_CONVERSION(若无法转换,则建议客户端编码与服务器端编码保持一致,客户端编码可通过GUC参数client_encoding修改)。
- 若要指定数据库字符集编码为GB18030_2022,且客户端编码也要设置为GB18030_2022时,必须确保客户端操作系统支持的GB18030字符集为2022版本,否则由于GB18030字符集自身的各版本间存在不完全兼容,可能导致数据的不一致性。同时,涉及到历史数据切换为GB18030_2022数据库时应当遵循切库流程,进行数据迁移操作。
- LC_COLLATE [ = ] 'lc_collate'
可选。指定新数据库使用的字符集。例如,通过lc_collate = 'zh_CN.gbk'设定该参数。
该参数的使用会影响到对字符串的排序顺序(如使用ORDER BY执行,以及在文本列上使用索引的顺序)。默认是使用模板数据库的字符集。该参数对M-Compatibility数据库不生效。
取值范围:操作系统支持的字符集。
- LC_CTYPE [ = ] 'lc_ctype'
可选。指定新数据库使用的字符分类。例如,通过lc_ctype = 'zh_CN.gbk'设定该参数。该参数的使用会影响到字符的分类,如大写、小写和数字。默认是使用模板数据库的字符分类。该参数对M-Compatibility数据库不生效。
取值范围:操作系统支持的字符分类。
- 对于lc_collate和lc_ctype参数的取值范围,取决于本地环境支持的字符集。例如:在Linux操作系统上,可通过locale -a命令获取操作系统支持的字符集列表,在应用lc_collate和lc_ctype参数时可从中选择用户需要的字符集和字符分类。
- 如果需要设置字符编码集为GB18030_2022时,lc_collate参数和Lc_ctype参数的取值范围与GB18030保持一致。
- 如果需要设置字符编码集为ZHS16GBK时,lc_collate参数和Lc_ctype参数的取值范围需与GBK字符集保持一致。
- DBCOMPATIBILITY [ = ] 'compatibility_type'
可选。指定兼容的数据库的类型,默认兼容MySQL。
取值范围:MYSQL、TD、ORA、PG、M。分别表示兼容MySQL、TD(Teradata)、Oracle、PostgreSQL和M-Compatibility。
- ORA兼容性下,数据库将空字符串作为NULL处理,数据类型DATE会被替换为TIMESTAMP(0) WITHOUT TIME ZONE。
- 将字符串转换成整数类型时,如果输入不合法,MYSQL兼容性会将输入转换为0,而其它兼容性则会报错。
- PG兼容性下,CHAR和VARCHAR以字符为计数单位,其它兼容性以字节为计数单位。例如,对于UTF-8字符集,CHAR(3)在PG兼容性下能存放3个中文字符,而在其它兼容性下只能存放1个中文字符。
- 执行语句报错时,部分报错信息中显示“A-format”或“B-format”,“A-format”表示“ORA-format”,“B-format”表示“MYSQL-format”。
- M-Compatibility下,数据库特性详见《M-Compatibility开发指南》。
- TABLESPACE [ = ] tablespace_name
可选。指定数据库对应的表空间。
取值范围:已存在表空间名。
- CONNECTION LIMIT [ = ] connlimit
可选。数据库可以接受的并发连接数。
- 系统管理员不受此参数的限制。
- connlimit每个CN单独统计,集群整体的连接数 = connlimit * 当前正常CN节点个数。
取值范围:[-1, 2^31-1]的整数。默认值为-1,表示没有限制。
有关字符编码的一些限制:
- 若区域设置为C(或POSIX),则允许所有的编码类型,但是对于其他的区域设置,字符编码必须和区域设置相同。
- 编码和区域设置必须匹配模板数据库,除了将template0当作模板。 因为其他数据库可能会包含不匹配指定编码的数据,或者可能包含排序顺序受LC_COLLATE和LC_CTYPE影响的索引。复制这些数据会导致在新数据库中的索引失效。template0是不包含任何会受到影响的数据或者索引。
- DBTIMEZONE [ = ] 'time_zone'
指定新数据库的时区。例如,通过DBTIMEZONE = '+00:00'设定该参数。该参数会影响新数据库的时区。默认设置为PRC时区。
前提条件:当前连接数据库是ORA兼容、a_format_version='10c'、a_format_dev_version='s2'。
取值范围:操作系统支持的时区名称和缩写或者-15:59到+15:00时间戳范围。