检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据库、数据仓库、数据湖、湖仓一体分别是什么? 如今随着互联网以及物联网等技术的不断发展,越来越多的数据被生产出来,数据管理工具也得到了飞速的发展,大数据相关概念如雨后春笋一般应运而生,如数据库、数据仓库、数据湖、湖仓一体等。这些概念分别指的是什么,又有着怎样的联系,同时,对应的产品与方案又是什么呢?本文将一一进行对比介绍。
云容器引擎-成长地图 | 华为云 数据仓库服务 GaussDB(DWS) 数据仓库服务(Data Warehouse Service,简称DWS)是完全托管的企业级云上数据仓库服务,具备免运维、在线扩展、高效的多源数据加载能力,兼容PostgreSQL生态。助力企业经济高效地对海量数据进行在线分析,实现数据快速变现。
导入数据最佳实践 从OBS并行导入数据 将导入数据拆分为多个文件 导入大数据量的数据时,通常需要较长的时间及耗费较多的计算资源。 从OBS上导入数据时,如下方法可以提升导入性能:将数据文件存储到OBS前,尽可能均匀地将文件切分成多个,文件的数量为DN的整数倍更适合。 在导入前后验证数据文件
数据迁移 DWS的OBS外表与GDS外表支持的数据格式有什么区别? 数据如何存储到DWS? DWS可以存储多少业务数据? 如何使用DWS的\copy导入导出? 如何实现DWS不同编码库之间数据容错导入 DWS导入性能都和哪些因素有关联?
使用GaussDB(DWS)冷热数据切换功能降低业务成本 场景介绍 海量大数据场景下,随着业务和数据量的不断增长,数据存储与消耗的资源也日益增长。根据业务系统中用户对不同时期数据的不同使用需求,对膨胀的数据进行“冷热”分级管理,不仅可以提高数据分析性能还能降低业务成本。针对数据使
hll_cardinality ----------------- 2 (1 row) 使用hll进行网站访客统计场景 创建原始数据表facts,记录用户访问网站时间。 1 2 3 4 CREATE TABLE facts ( date
数据脱敏 GaussDB(DWS)提供列级别的数据脱敏(Dynamic Data Masking)功能。针对某些敏感信息(如身份证号、手机号、银行卡号等),通过应用脱敏函数进行原始数据的变形改写,实现敏感隐私数据的可靠保护,从而增强产品在数据安全和隐私保护方面的能力。 了解更多请参见数据脱敏。
Incrementals。用来管理Hadoop大数据体系下存储在DFS上大型分析数据集。 Hudi不是单纯的数据格式,而是一套数据访问方法(类似GaussDB(DWS)存储的access层),在Apache Hudi 0.9版本,大数据的Spark,Flink等组件都单独实现各自客户端。Hudi的逻辑存储如下图所示:
Name)是由一串用“点”分隔的字符组成的Internet上某一台计算机或计算机组的名称,如www.example.com。用户在Web浏览器的地址栏输入域名来访问某个网站或者Web应用程序。 GaussDB(DWS)支持通过内网域名和公网域名访问集群。 内网域名是指通过内部网络访问集群数据库的域名地址。内网
PG_LARGEOBJECT_METADATA PG_LARGEOBJECT_METADATA系统表存储与大数据相关的元数据。实际的大对象数据存储在PG_LARGEOBJECT里。 表1 PG_LARGEOBJECT_METADATA字段 名字 类型 引用 描述 oid oid -
数据导入/导出 使用COPY FROM导入时报错“invalid byte sequence for encoding "UTF8": 0x00” GDS导入/导出类问题 创建GDS外表失败,提示不支持ROUNDROBIN 通过CDM将MySQL数据导入GaussDB(DWS)时出现字段超长,数据同步失败
PG_LARGEOBJECT_METADATA PG_LARGEOBJECT_METADATA系统表存储与大数据相关的元数据。实际的大对象数据存储在PG_LARGEOBJECT里。 表1 PG_LARGEOBJECT_METADATA字段 名字 类型 引用 描述 oid oid -
数据在DWS中是否安全? 安全。在大数据时代,数据是用户的核心资产。公有云将继续秉承多年来向社会做出的“上不碰应用,下不碰数据”的承诺,保证用户核心资产的安全。这是对用户和社会的承诺,也是公有云及其伙伴商业成功的保障和基石。 数据仓库服务工程师对整个数据仓库系统进行了电信系统级别
特定特征的目标用户群体进行广告推送。 在教育行业中,需要根据学生不同的特征,推送有针对性的练习题目,帮助学生查漏补缺。 在搜索、视频、门户网站中,根据用户关注的热点,推送不同的内容。 这些业务场景都有一些共同的特点: 数据量庞大,运算量极大。 用户规模庞大,标签多,字段多,占用存储空间也多。
hll_cardinality ----------------- 2 (1 row) 使用hll进行网站访客统计场景 创建原始数据表facts,记录用户访问网站时间。 1 2 3 4 CREATE TABLE facts ( date
创建数据仓库GaussDB(DWS) 参见“创建集群”章节创建GaussDB(DWS)数据仓库。创建成功后,记录集群的内网IP。 为确保ECS与GaussDB(DWS)网络互通,GaussDB(DWS)数据仓库需要与ECS在同一个区域,同一个虚拟私有云和子网下。 表1 DWS规格
查看GaussDB(DWS)数据库审计日志 数据库审计日志在集群的“安全设置”页面中进行设置,仅“可用”和“非均衡”状态的集群支持修改安全配置,同时集群的任务信息不能处于“节点扩容”、“配置中”、“升级中”、“重分布中”和“重启中”等状态。 前提条件 审计功能总开关audit_e
少WAL日志段文件数量。每个日志文件大小为16MB。 参数类型:SIGHUP 取值范围:整型,最小值1。 默认值:64 提升此参数可加快大数据的导入速度,但需要结合checkpoint_timeout、shared_buffers这两个参数统一考虑。这个参数同时影响WAL日志段文
Studio图形界面客户端,该工具依赖JDK,请先在客户端主机上安装JDK。 仅支持Java 1.8版本的JDK。 在Windows操作系统中,您可以访问JDK官网网站,下载符合操作系统版本的JDK,并根据指导进行安装。 登录GaussDB(DWS)管理控制台。在左侧导航栏中,单击“管理 > 连接客户端”,进入“下载客户端和驱动”页面。
WAL日志段文件数量。每个日志文件大小为16MB。 参数类型:SIGHUP 取值范围:整型,最小值为1。 默认值:64 提升此参数可加快大数据的导入速度,但需要结合checkpoint_timeout、shared_buffers这两个参数统一考虑。这个参数同时影响WAL日志段文