检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据湖就是在这种背景下产生的。数据湖是一个集中存储各类结构化和非结构化数据的大型数据仓库,它可以存储来自多个数据源、多种数据类型的原始数据,数据无需经过结构化处理,就可以进行存取、处理、分析和传输。数据湖能帮助企业快速完成异构数据源的联邦分析、挖掘和探索数据价值。 数据湖的本质,是由“数据存储架构+数据处理工具”组成的解决方案。
GaussDB(DWS)热数据存储和冷数据存储的区别? 热数据存储和冷数据存储最大的区别在于存储介质不同: 热数据存储是直接将频繁被查询或更新,对访问的响应时间要求很高的热数据存储在DN数据盘中。 冷数据存储将不更新,偶尔被查询,对访问的响应时间要求不高的冷数据存储在OBS中。 因为
计算子集群函数 pv_compute_pool_workload() 描述:返回计算子集群当前的负载状态。 返回类型:void 示例: 1 2 3 4 5 6 SELECT * from pv_compute_pool_workload(); nodename | rpinuse
数据倾斜导致SQL执行慢,大表SQL执行无结果 问题现象 某场景下SQL执行慢,涉及大表的SQL执行不出来结果。 原因分析 GaussDB(DWS)支持Hash、REPLICATION和ROUNDROBIN(8.1.2集群及以上版本支持ROUNDROBIN)分布方式。如果创建了H
计算子集群函数 pv_compute_pool_workload() 描述:返回计算子集群当前的负载状态。 返回类型:void 示例: SELECT * from pv_compute_pool_workload(); nodename | rpinuse | maxrp |
数据仓库规格 GaussDB(DWS)的规格按照产品类型分为存算一体和存算分离。其中存算一体还包含单机版模式。各产品类型的不同差异,详情请参见数据仓库类型。 低配置集群,如内存16G、vCPU4核及以下的规格,建议不要用于生产环境,可能会导致资源过载风险。 存算一体规格 存算一体
Warehouse,以下简称VW)共享存储技术,实现不同负载的计算隔离和并发扩展,适用于OLAP分析场景。 GaussDB(DWS)数仓之间暂不支持互相访问,用户可通过创建的OBS外表,将两个数据库关联在同一个数据目录下进行数据查询。 功能特性对比 表1 功能特性对比 功能模块 功能模块
、构建、查询和维护数据仓库所需的信息。 数据库基本操作 创建和管理数据库 创建和管理表 管理用户及权限 配置GUC参数 用户自定义函数 PostGIS空间数据库扩展 全文检索 SQL语法参考 存储过程 系统表和视图 导入/导出数据 从OBS导入数据到集群 并行导出数据到OBS 使用GDS从远端服务器导入数据
0 (8 rows) 插入数据不满足hll数据结构要求时报错场景 当用户给hll类型的字段插入数据的时候,必须保证插入的数据满足hll数据结构要求,如果解析后不满足就会报错。 例如: 插入数据'E\\1234'时,该数据不满足hll数据结构,不能解析成功因此失败报错。 1
能,相对HDFS有所下降,建议在数据计算不频繁场景下使用。 数据存储在HDFS:数据存储和计算不分离,集群成本较高,计算性能高,但存储量受磁盘空间限制,删除集群前需将数据导出保存,建议在数据计算频繁场景下使用。 实时数仓(单机部署)暂不支持OBS和HDFS外表导入导出功能。 注意事项
数据脱敏 GaussDB(DWS)提供列级别的数据脱敏(Dynamic Data Masking)功能。针对某些敏感信息(如身份证号、手机号、银行卡号等),通过应用脱敏函数进行原始数据的变形改写,实现敏感隐私数据的可靠保护,从而增强产品在数据安全和隐私保护方面的能力。 了解更多请参见数据脱敏。
已配置需要审计的审计项。各审计项及其开启办法,请参考设置数据库审计日志。 数据库正常运行,并且对数据库执行了一系列增、删、改、查操作,保证在查询时段内有审计结果产生。 数据库各个节点审计日志单独记录。 只有拥有AUDITADMIN属性的用户才可以查看审计记录。 设置数据库审计日志 登录GaussDB(DWS)管理控制台。
数据迁移 GaussDB(DWS)的OBS外表与GDS外表支持的数据格式有什么区别? 数据如何存储到GaussDB(DWS)? GaussDB(DWS)可以存储多少业务数据? 如何使用GaussDB(DWS)的\copy导入导出? 如何实现GaussDB(DWS)不同编码库之间数据容错导入
导入数据最佳实践 从OBS并行导入数据 将导入数据拆分为多个文件 导入大数据量的数据时,通常需要较长的时间及耗费较多的计算资源。 从OBS上导入数据时,如下方法可以提升导入性能:将数据文件存储到OBS前,尽可能均匀地将文件切分成多个,文件的数量为DN的整数倍更适合。 在导入前后验证数据文件
出现字段超长,数据同步失败 执行创建OBS外表的SQL语句时,提示Access Denied GDS导入失败后,磁盘占用空间增大 GDS导入数据时,脚本执行报错:out of memory 使用GDS传输数据的过程中,报错:connection failure error 使用DataArts
于OBS访问性能,相对HDFS有所下降,建议在数据计算不频繁场景下使用。 数据存储在HDFS:数据存储和计算不分离,集群成本较高,计算性能高,但存储量受磁盘空间限制,删除集群前需将数据导出保存,建议在数据计算频繁场景下使用。 实时数仓(单机部署)暂不支持HDFS外表。 实时数仓(单机部署)8
创建数据仓库GaussDB(DWS) 参见“创建集群”章节创建GaussDB(DWS)数据仓库。创建成功后,记录集群的内网IP。 为确保ECS与GaussDB(DWS)网络互通,GaussDB(DWS)数据仓库需要与ECS在同一个区域,同一个虚拟私有云和子网下。 表1 DWS规格
0 (8 rows) 插入数据不满足hll数据结构要求时报错场景 当用户给hll类型的字段插入数据的时候,必须保证插入的数据满足hll数据结构要求,如果解析后不满足就会报错。 例如: 插入数据'E\\1234'时,该数据不满足hll数据结构,不能解析成功因此失败报错。 1
GaussDB(DWS)支持数据加密,同时可与数据库安全服务对接,保证云上数据安全。同时GaussDB(DWS)支持数据自动全量、增量备份,提升数据可靠性。 大数据融合分析 随着信息技术的发展和进步,数据资源已经成为企业的核心资源。整合数据资源,构建大数据平台,发现数据价值,成为企业经营的
步骤1:创建初始表并加装样例数据 支持区域 当前已上传OBS数据的区域如表1所示。 表1 区域和OBS桶名 区域 OBS桶名 华北-北京一 dws-demo-cn-north-1 华北-北京二 dws-demo-cn-north-2 华北-北京四 dws-demo-cn-north-4