检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GaussDB(DWS)支持通过GDS外表将TXT、CSV和FIXED格式的数据导入到集群进行查询。 在本教程中,您将: 生成本教程需要使用的CSV格式的数据源文件。 将数据源文件上传到数据服务器。 创建外表,用于对接GDS和GaussDB(DWS),将数据服务器上的数据导入到GaussDB(DWS)集群中。 启
创建数据仓库GaussDB(DWS) 参见“创建集群”章节创建GaussDB(DWS)数据仓库。创建成功后,记录集群的内网IP。 为确保ECS与GaussDB(DWS)网络互通,GaussDB(DWS)数据仓库需要与ECS在同一个区域,同一个虚拟私有云和子网下。 表1 DWS规格
gds_uninstall是用于批量卸载GDS的脚本工具。 注意事项 执行脚本前需设置环境变量,可参考《开发指南》中“导入数据>通过外表并行导入>安装配置和启动GDS”章节。 脚本需要在python 3环境下运行。 必须在root用户下执行脚本gds_uninstall。 必须包含--host、-U参数。
数据备份 GaussDB(DWS)业务数据备份与恢复通过快照功能实现。快照是对GaussDB(DWS)集群在某一时间点的一次全量数据和增量数据的备份,记录了当前数据库的数据以及集群的相关信息,其中包括节点数量、节点规格和数据库管理员用户名称等。GaussDB(DWS)可通过管理控
选查看、编辑和删除分区数据信息。 查看视图数据 登录GaussDB(DWS)管理控制台。 在左侧导航栏中,选择“数据 > SQL编辑器”。 切换至“数据源”面板,右键视图名称,单击“查看数据”可筛选查看该数据库下视图数据信息。 图7 查看视图数据 导入数据 登录GaussDB(DWS)管理控制台。
措施来帮助保护数据安全。例如,设计一个安全系统、加密机密资产以及在数据库服务器的周围构建防火墙。 但是,如果遇到物理介质(如硬盘)被黑客或者内部人员盗取的情况,恶意破坏方只需还原或附加数据库即可浏览用户数据。 有一种解决方案是加密数据库中的敏感数据,并保护加密数据的密钥,该方案可
导入数据 从OBS并行导入数据 使用GDS从远端服务器导入数据 从MRS导入数据到集群 从GaussDB(DWS)集群导入数据到新集群 基于GDS的跨集群互联互通 使用开源Kettle导入数据 使用gsql元命令\COPY导入数据 使用COPY FROM STDIN导入数据
执行导入数据 完成GDS的安装部署及外表创建后,本节介绍如何在GaussDB(DWS)数据库中创建事实表并将数据导入事实表中。 对于记录数超过千万条的表,建议在执行全量数据导入前,先导入部分数据,以进行数据倾斜检查和调整分布列,避免导入大量数据后发现数据倾斜,调整成本高。 前提条件
使用COPY命令导入数据 COPY命令用于从本地或其它数据库的多个数据源并行导入数据。COPY导入大量数据的效率要比INSERT语句高很多,而且存储数据也更有效率。 有关如何使用COPY命令的更多信息,请参考使用COPY FROM STDIN导入数据 。 使用gsql元命令导入数据 \cop
数据迁移 使用CDM迁移Oracle数据至GaussDB(DWS)集群 使用CDM迁移MySQL数据至GaussDB(DWS)集群 使用DLI Flink作业实时同步MySQL数据至(GaussDB)DWS集群 使用CDM迁移Hologres至GaussDB(DWS)集群 使用Kettle迁移AWS
数据开发 使用GaussDB(DWS)冷热数据切换功能降低业务成本 使用GaussDB(DWS)分区自动管理功能降低电商和物联网行业数据分区维护成本 使用GaussDB(DWS)视图重建功能实现视图解耦以提升开发效率 HStore表使用优秀实践 GIN索引使用实践 实现数据列的加解密
SQL被大多数数据库用作查询语言。它是可移植的并且容易学习。但是每一个SQL语句必须由数据库服务器单独执行。 这意味着客户端应用必须发送每一个查询到数据库服务器、等待它被处理、接收并处理结果、做一些计算,然后发送更多查询给服务器。如果客户端和数据库服务器不在同一台机器上,所有这些会引起进程间通信并且将带来网络负担。
range. 解决方案:分析语句中数据类型是否超出范围,可考虑将类型转换为数值类型。 level: ERROR GS_216110197 错误码: %s is not a valid data directory. 解决方案:文件中未包含有效数据,可能需要初始化数据库。 level: FATAL
S时提前发现潜在问题,提高执行成功率。 注意事项 执行脚本前需设置环境变量,可参考《开发指南》中“导入数据>通过外表并行导入>安装配置和启动GDS”章节。 脚本需要在python 3环境下运行。 必须在root用户下执行脚本。 必须指定-t、--host参数。 当--host指定网络地址0
规划导出数据 OBS导出数据准备:请参见规划导出数据完成OBS导出数据准备。 OBS导出支持的数据类型请参见表1。 表1 ORC格式的只写外表与HIVE数据类型匹配关系 类型名称 GaussDB(DWS)内表支持类型(数据源表) GaussDB(DWS)只写外表对应的类型 HIVE建表类型
SQL被大多数数据库用作查询语言。它是可移植的并且容易学习。但是每一个SQL语句必须由数据库服务器单独执行。 这意味着客户端应用必须发送每一个查询到数据库服务器、等待它被处理、接收并处理结果、做一些计算,然后发送更多查询给服务器。如果客户端和数据库服务器不在同一台机器上,所有这些会引起进程间通信并且将带来网络负担。
导出数据 导出数据到OBS 导出ORC数据到MRS 使用GDS导出数据到远端服务器
规划导出数据 操作场景 使用GDS从集群导出到数据之前,要提前准备需要导出的数据,并规划导出的路径。 规划导出路径 Remote模式 以root用户登录GDS数据服务器,创建导出的数据文件存放目录“/output_data”。 1 mkdir -p /output_data (
规划导出数据 MRS导出支持的数据类型请参见表2。 表1 ORC格式的只写外表与HIVE数据类型匹配关系 类型名称 GaussDB(DWS)内表支持类型(数据源表) GaussDB(DWS)只写外表对应的类型 HIVE建表类型 1字节整数 TINYINT TINYINT(不推荐)
数据库管理 关系型数据库包含一组表,这些表可以依照数据关系模型来操作。关系型数据库包含一组数据对象,用于存储、管理和访问数据对象,包括表、视图、索引、函数等。 创建数据库 在“对象浏览器”窗格中右键单击“数据库”组,选择“创建数据库”。 弹出“创建数据库”对话框,提示您提供创建数据库所需信息。