检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据仓库(07)数据仓库(07)数仓规范设计 数据仓库(08)数据仓库(08)数仓事实表和维度表技术 数据仓库(09)数据仓库(09)数仓缓慢变化维度数据的处理 数据仓库(10)数据仓库(10)数仓拉链表开发实例 数据仓库(11)数据仓库(11)什么是大数据治理,数据治理的范围是哪些 数据仓库(12)数据仓库(12)数据治理之数仓数据管理实践心得
目录 数据仓库 v.s. 传统数据库 数据仓库性能测试案例 性能指标 测试方案 测试数据集 基准环境准备 测试操作步骤 测试结果分析 从数据仓库到云原生数据仓库 数据仓库 v.s. 传统数据库 随着 5G 网络和 IoT 技术的兴起,以及越来越复杂多变的企业经
什么是数据仓库服务 数据仓库服务GaussDB(DWS) 是一种基于华为云基础架构和平台的在线数据处理数据库,提供即开即用、可扩展且完全托管的分析型数据库服务。GaussDB(DWS)是基于华为融合数据仓库GaussDB产品的云原生服务 ,兼容标准ANSI SQL 99和SQL
数据仓库规格 GaussDB(DWS)的规格按照产品类型分为存算一体和存算分离。其中存算一体还包含单机版模式。各产品类型的不同差异,详情请参见数据仓库类型。 低配置集群,如内存16G、vCPU4核及以下的规格,建议不要用于生产环境,可能会导致资源过载风险。 存算一体规格 存算一体
创建数据仓库GaussDB(DWS) 参见“创建集群”章节创建GaussDB(DWS)数据仓库。创建成功后,记录集群的内网IP。 为确保ECS与GaussDB(DWS)网络互通,GaussDB(DWS)数据仓库需要与ECS在同一个区域,同一个虚拟私有云和子网下。 表1 DWS规格
根据阿里流程规范,本文将数据仓库研发流程抽象为如下几点: 需求阶段:数据产品经理应如何应对不断变化的业务需求。设计阶段:数据产品经理、数据开发者应如何综合性能、成本、效率、质量等因素,更好地组织与存储数据。开发阶段:数据研发者如何高效、规范地进行编码工作。测试阶段:测试人员应如何准确地
文章目录 数据仓库 什么是数据仓库? 数据库与数据仓库的区别? 事实表和维度表 数据仓库的数据模型: 为什么数据仓库要分层? 数据仓库模式:Kimball (金箔)和 Inmon(恩门)
于是数据仓库需要分层。 数据仓库分层的原因 1、用空间换时间,通过数据预处理提高效率,通过大量的预处理可以提升应用系统的用户体验(效率),但是数据仓库会存在大量冗余的数据. 2、增强可扩展性,方便以后业务的变更。如果不分层的话,当源业务系统的业务规则发生变化整个数据仓库需要重
在介绍Lambda和Kappa架构之前,我们先回顾一下数据仓库的发展历程: 传送门-数据仓库发展历程 写在前面 咳,随着数据量的暴增和数据实时性要求越来越高,以及大数据技术的发展驱动企业不断升级迭代,数据仓库架构方面也在不断演进,分别经历了以下过程:早期经典数仓架构 >
数据仓库类型 产品类型概述 存算一体:面向数据分析场景,为用户提供高性能、高扩展、高可靠、高安全、低时延、易运维的企业级数仓服务,支持2048节点、20PB级超大规模数据分析能力,适用于“库、仓、市、湖”一体化的融合分析业务。 存算分离:采用存算分离云原生架构,计算、存储分层弹性
于是数据仓库需要分层。 数据仓库分层的原因 1、用空间换时间,通过数据预处理提高效率,通过大量的预处理可以提升应用系统的用户体验(效率),但是数据仓库会存在大量冗余的数据. 2、增强可扩展性,方便以后业务的变更。如果不分层的话,当源业务系统的业务规则发生变化整个数据仓库需要重
换逻辑,如数据清洗、数据聚合、数据关联等。 • 一、测试环境 二、登录环境 1、命令行登录ECS Windows10以上可以使用自带cmd命令行来登录。也可以用最新版本的putty。我测试的环境是Windows11,以下为测试的登录截图。 2、为避免使用时超时自动断开连接,请运行tmux
换逻辑,如数据清洗、数据聚合、数据关联等。 • 一、测试环境 二、登录环境 1、命令行登录ECS Windows10以上可以使用自带cmd命令行来登录。也可以用最新版本的putty。我测试的环境是Windows11,以下为测试的登录截图。 2、为避免使用时超时自动断开连接,请运行tmux
Hive数据仓库的操作: 数据库的创建与删除表的创建,修改,删除表中数据的导入与导出表分区与桶的创建、修改、删除 目录 Hive环境搭建 Hive数据仓库的操作 Hive数据表的操作 Hive中数据的导入与导出
测试方法 总体流程 创建弹性云服务器ECS和数据仓库GaussDB(DWS) 构建TPC-H&TPC-DS使用数据 建表与数据导入 执行查询与结果收集
SSB测试数据 表1 SSB测试数据 序号 表名 行数 表大小 1 supplier 200000 - 2 customer 3000000 - 3 part 1400000 - 4 lineorder 60037902 - 5 lineorder_flat 60037902 -
TPC-DS测试数据 表1 TPC-DS测试数据 序号 表名 行数 表大小 1 customer_address 6,000,000 126MB 2 customer_demographics 1,920,800 11MB 3 date_dim 73,049 11MB 4 warehouse
TPC-H测试数据 表1 TPC-H测试数据 序号 表名 行数 表大小 1 region 5 294KB 2 nation 25 298KB 3 supplier 10,000,000 1020MB 4 customer 150,000,000 8226MB 5 part 200
TPC-DS测试过程 TPC-DS测试数据 TPC-DS数据生成 建表与导入TPC-DS数据 TPC-DS查询测试 父主题: TPC-DS性能测试
了解更多常见问题、案例和解决方案 热门案例 数据库、数据仓库、数据湖、湖仓一体分别是什么? 为什么要使用云数据仓库服务GaussDB(DWS)? 无法连接数据仓库集群时怎么处理? 如何选择公有云DWS或者公有云RDS? 数据在数据仓库服务中是否安全? 如何清理与回收存储空间? 更多 数据库连接