企业级数据仓库和标准SQL的支持
当创建好GaussDB(DWS) 集群后,用户就可以使用SQL客户端工具连接集群,然后执行创建数据库、管理数据库、导入/导出数据以及查询数据的操作。
GaussDB(DWS) 为用户提供了PB(petabyte)级高性能数据库,主要体现在:
1)MPP大规模并行处理框架,支持行列混存、向量化执行,实现万亿数据关联分析秒级响应。
2)内存计算,基于Bloom Filter的Hash Join优化,性能提升2~10倍。
3)基于电信技术优化的大规模集群通信,提升计算节点间的传输效率。
4)基于代价的智能优化器,根据集群规模、数据量、生成最优计划,提高执行效率。
GaussDB(DWS) 具有完备的SQL能力:
5)支持SQL 92、SQL 2003标准,支持存储过程,支持GBK和UTF-8字符集,支持SQL标准函数与OLAP分析函数。
6)兼容PostgreSQL生态,与主流第三方数据库ETL,BI(business intelligence)工具厂商对接认证。
7)支持位图roaring bitmap数据类型及对应常见函数,在互联网、零售、教育、游戏等行业,提取用户特征、用户画像等场景有广泛应用。
8)在现有范围分区(Range Partitioning)基础上,新增支持list分区方式:PARTITION BY LIST (partition_key,[...]),满足用户使用习惯。
9)HDFS/OBS外表READ ONLY外表支持JSON文件格式。
10)支持系统表赋权给普通用户,vacuum能够单独赋权,以及支持可扩展的预定义权限角色功能。
a.新增表级权限Alter/Drop/Vacuum。
b.新增Schema级权限Alter/Drop。
c.新增预置角色role_signal_backend、role_read_all_stats。
多样化的数据导入方式
支持多数据源高效入库,典型的入库方式如下所示:
1)从OBS并行导入数据
2)使用GDS从远端服务器导入数据
3)从MRS导入数据到集群
4)从GaussDB(DWS)集群导入数据到新集群
5)使用gsql元命令\COPY导入数据
6)使用COPY FROM STDIN导入数据
7)使用DRS将数据导入GaussDB(DWS)
8)使用CDM迁移数据到GaussDB(DWS)
9)使用DGC数据接入服务迁移数据到GaussDB(DWS)
10)使用DSC工具迁移SQL脚本
11)使用gs_dump和gs_dumpall命令导出元数据
12)使用gs_restore导入数据
集群管理
一个GaussDB(DWS)集群由多个在相同子网中的相同规格的节点组成,共同提供服务。GaussDB(DWS) 为用户提供了简单易用的Web管理控制台,让用户可以快速申请集群,轻松执行数据仓库管理任务,专注于数据和业务。
集群管理的主要功能如下:
1)创建集群
如果用户需要在云上环境中使用数据仓库服务,首先应创建一个GaussDB(DWS)集群。用户可根据业务需求选择相应的产品规格和节点规格快速创建集群。您也可以先购买包年/包月折扣套餐,然后再创建集群。
2)管理快照
快照是GaussDB(DWS) 集群在某一时间点的完整备份,记录了这一时刻指定集群的所有配置数据和业务数据,快照可用于还原某一时刻的集群。用户可以为集群手动创建快照,也可以开启定时创建自动快照。自动快照有保留天数限制,用户可以对自动快照进行复制,生成手工快照以便长期保留。
当您从快照恢复集群时,系统将为您创建一个与原始集群规格相同、节点数也相同的新集群,并导入快照数据。
对于不再需要的快照,可以选择删除快照,以释放存储空间。
3)管理节点
用户可查看所创集群的节点列表,在节点管理页面可以清晰的查询各节点的状态、节点规格、是否已使用等信息。若用户需要进行大规模扩容操作时,可通过节点管理功能提前分批次添加准备好用于扩容的节点。例如需要新扩容180个BMS节点,可分3批各添加60个,如果其中有一部分添加失败,可再次添加失败数量的节点,等180个节点添加成功后,再使用这些添加好的节点进行扩容;添加节点过程中不影响集群业务。
4)扩容集群
随着业务的增长,现有集群规模可能无法满足业务需要,此时,用户可以扩容集群,为集群增加计算节点。扩容时业务不中断。进行扩容操作时,用户可根据需求选择是否在线扩容和自动重分布。
5)管理重分布
默认情况下,在扩容之后将自动调起重分布任务,为了增强扩容重分布整个流程的可靠性,可以选择在扩容时关闭自动重分布功能,在扩容成功之后再手动使用重分布功能执行重分布任务,数据重分布后将大大提升业务响应速率。当前重分布支持离线重分布、在线重分布两种模式,默认情况下,提交重分布任务时将选择离线重分布模式。
6)磁盘扩容
随着客户业务的发展,磁盘空间往往最先出现资源瓶颈,在其他资源尚且充足的情况下,执行传统扩容操作不仅耗时久,还伴随着资源浪费问题,扩容过程也不具备在线能力。通过磁盘扩容可快速缓解存储资源瓶颈现象,操作过程中无需暂停业务,并且不会造成CPU、内存等资源浪费。用户可在没有其他业务情况下选择磁盘扩容操作,扩容成功后可以继续磁盘扩容,若扩容失败用户可尝试重新进行磁盘扩容操作。
7)资源管理
当您有多个数据库用户同时查询作业时,一些复杂查询可能会长时间占用集群资源,从而影响其他查询的性能。例如一组数据库用户不断提交复杂、耗时的查询,而另一组用户经常提交短查询。在这种情况下,短时查询可能不得不在队列中等待耗时查询完成。为了提高效率,GaussDB(DWS)提供了资源管理功能,GaussDB(DWS)资源管理以资源池为资源承载,对于不同的业务类型可以创建不同的资源池,为这些资源池配置不同的资源占比,然后将数据库用户添加至对应的资源池中,以此来限制这些数据库用户的资源使用。
8)逻辑集群
逻辑集群是基于Node Group机制来划分物理节点的一种集群模式,从节点层次将大集群进行划分,和数据库形成交叉。一个数据库中的表可以按逻辑集群来分配到不同的物理节点,而一个逻辑集群也可以包含多个数据库的表。
9)重启集群
重启集群将有可能会导致正在运行中的业务数据丢失,如果需要执行重启操作,请确定不存在正在运行的业务,所有数据都已经保存。
10)删除集群
当用户不再需要集群时,可选择删除集群。此操作为高危操作,删除集群可能导致数据丢失,请谨慎操作。
监控与审计
1)监控集群
GaussDB(DWS) 与云监控服务集成,使您能够对集群中的计算节点和数据库进行实时监控。
2)数据库监控
数据库监控(DMS)是一个为GaussDB(DWS)数据库提供多维度监控服务的系统,为客户数据库的快速、稳定运行提供保驾护航的能力。该功能对业务数据库所使用磁盘、网络、OS指标数据,集群运行关键性能指标数据进行收集、监控、分析。通过综合收集到的多种类型指标,对数据库主机、实例、业务SQL进行诊断,及时暴露数据库中关键故障及性能问题,指导客户进行优化解决。
3)事件通知
GaussDB(DWS) 与消息通知服务对接,使您能够查看触发的各类事件。
4)告警管理
告警管理包含查看告警规则、告警规则配置与告警信息订阅功能。其中,告警规则可以提供过去一周的告警信息统计与告警信息明细,方便用户自行查看租户下的告警。该特性除了以默认值的形式提供一套GaussDB(DWS)告警最佳实践外,还允许用户根据自己的业务特点,个性化修改告警阈值。
5)事件通知
GaussDB(DWS) 与消息通知服务对接,使您能够订阅事件并查看触发的各类事件。
6)审计日志
GaussDB(DWS) 与云审计服务集成,使您能够对所有的管理控制台操作及API调用进行审计。详情请参见查看管理控制台关键操作审计日志查看管理控制台关键操作审计日志“查看管理控制台关键操作审计日志”章节。
GaussDB(DWS) 数据库还会记录所有的SQL操作,包括连接尝试、查询和数据库的变动。
支持多种数据库工具
GaussDB(DWS) 提供了以下几款自研工具,用户可以在GaussDB(DWS) 管理控制台下载相关的工具包。
1)gsql工具
它是一款运行在Linux操作系统的命令行SQL客户端工具,用于连接GaussDB(DWS) 集群中的数据库,并对数据库进行操作和维护。
2)Data Studio工具
它是一款运行在Windows操作系统上的图形界面SQL客户端工具,用于连接GaussDB(DWS) 集群中的数据库、管理数据库和数据库对象,编辑、运行、调试SQL脚本,查看执行计划等。
3)GDS工具
它是GaussDB(DWS)提供的数据服务工具,通过和外表机制的配合,实现数据的高速导入导出。
GDS工具包需要安装在数据源文件所在的服务器上,数据源文件所在的服务器称为数据服务器,也称为GDS服务器。
4)DSC SQL语法迁移工具
DSC(Database Schema Convertor)是一款运行在Linux或Windows操作系统上的命令行工具,致力于向客户提供简单、快速、可靠的应用程序SQL脚本迁移服务,通过内置的语法迁移逻辑解析源数据库应用程序SQL脚本,并迁移为适用于GaussDB(DWS) 数据库的应用程序SQL脚本。
DSC支持迁移Teradata、Oracle、Netezza、MySQL和DB2数据库的SQL脚本。
5)数据管理服务(Data Admin Service,简称DAS)
GaussDB(DWS)支持页面登录功能(WebSQL),该功能依赖DAS,目前具体支持“库管理”和“SQL操作”。使用时,用户需填写数据库登录名和密码方可连接集群,查看元数据及执行SQL等操作。
6)gs_dump和gs_dumpall
gs_dump支持导出单个数据库或其内的对象,而gs_dumpall支持导出集群中所有数据库或各库的公共全局对象。
通过导入工具将导出的元数据信息导入至需要的数据库,可以完成数据库信息的迁移。
7)gs_restore在数据库迁移场景下,支持使用gs_restore工具将事先使用gs_dump工具导出的文件格式,重新导入GaussDB(DWS)集群,实现表定义、数据库对象定义等元数据的导入。