检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
停止GDS 操作场景 待导入数据成功后,停止GDS。 操作步骤 以gds_user用户登录安装GDS的数据服务器。 请根据启动GDS的方式,选择停止GDS的方式。 若用户使用“gds”命令启动GDS,请使用以下方式停止GDS。 执行如下命令,查询GDS进程号。 ps -ef|grep
import module: %s." SQLSTATE: 无 错误原因:系统环境默认使用python2执行工具,与期望使用的Python3不符,导致导入模块时报错:缺少python依赖的库。 解决办法:请联系技术支持工程师提供技术支持。 GAUSS-52201: "The current python
有关gsql的命令参考和更多信息,请参见《数据仓库服务工具指南》。 (可选)使用gsql导入TPC-DS样例数据 GaussDB(DWS)支持用户将数据从集群外导入到集群中。用户可以参考以下指导,快速将样例数据从OBS导入集群,并对样例数据进行查询和分析。导入的样例数据是使用TPC-DS测试基准生成的标准性能测试数据。
有关gsql的命令参考和更多信息,请参见元命令参考。 (可选)使用gsql导入TPC-DS样例数据 GaussDB(DWS)支持用户将数据从集群外导入到集群中。用户可以参考以下指导,快速将样例数据从OBS导入集群,并对样例数据进行查询和分析。导入的样例数据是使用TPC-DS测试基准生成的标准性能测试数据。
本章涉及的所有管道文件都是指linux上的命名管道。 在执行GDS导入导出时,为了确保数据导入或导出的正确性,需要在相同的兼容模式下操作。 例如:在MySQL兼容模式下导入(导出)的数据,同样需要在MySQL兼容模式下才能正确导出(导入)。 概述 通过外表导出数据:通过GDS外表设置的导出模
Hudi任务同步 创建Hudi任务 迁移场景 如果GaussDB(DWS)表已经通过CDL导入数据,改为用SQL on Hudi方式迁移数据。或者使用CDM做全量初始化后,继续使用SQL on Hudi方式同步增量数据。 创建hudi.hudi_sync_state同步状态表,需要管理员权限。
的场景。 处理方法 如果遇到写数据慢的问题,建议通过以下两种方式进行处理: 建议选择其他更加高效的数据导入方式,例如使用COPY方式导入数据。 有关导入方式的详细信息,请参见导入方式说明。 增大客户端并发数。 父主题: 集群性能
采取分片生成的策略。 Tpcds 1000X数据文件总大小约930GB,请确认ECS的磁盘空间足够。 由于生成的数据较大,只启动一个GDS导入数据会比较慢,建议均分两个数据盘来生成数据,如下示例,1-5分片存放至/data1/script/tpcds-kit/tpcds1000X
、移动互联网、O2O(Online to Offline)等行业提供强大的商业决策分析支持。 优势 数据迁移 多数据源,高效批量、实时数据导入。 高性能 PB级数据低成本的存储与万亿级数据关联分析秒级响应。 实时 业务数据流实时整合,及时对经营决策进行优化与调整。 图3 增强型ETL+实时BI分析
多样化的数据导入方式 GaussDB(DWS)支持多数据源高效入库,典型的入库方式如下所示。详细指导请参见迁移数据到GaussDB(DWS)章节。 从OBS并行导入数据 使用GDS从远端服务器导入数据 从MRS导入数据到集群 从GaussDB(DWS)集群导入数据到新集群 使用gsql元命令\COPY导入数据
WS)的数据导入、访问MRS集群、多维度分析、权限管理、JDBC开发、性能调优等场景。 表1 实验列表 场景 实验名称 实验描述 预计时长 导入分析 快速入门 一键式创建GaussDB(DWS)集群,上传csv本地数据到云存储OBS桶,通过创建OBS外表实现数据导入并简单分析。 1h
由于DWS的表定义结构与Oracle存在差异,需要手动修改转换后的表定义。 如下,将文件中的\echo整体注释掉(如果使用gsql工具导入表定义的话,不需要注释),同时手动修改指定表的分布列(distribute by hash (列名))。 修改前: 修改后: Hash分布
L日志段文件数量。每个日志文件大小为16MB。 参数类型:SIGHUP 取值范围:整型,最小值1。 默认值:64 提升此参数可加快大数据的导入速度,但需要结合checkpoint_timeout、shared_buffers这两个参数统一考虑。这个参数同时影响WAL日志段文件复用
日志段文件数量。每个日志文件大小为16MB。 参数类型:SIGHUP 取值范围:整型,最小值为1。 默认值:64 提升此参数可加快大数据的导入速度,但需要结合checkpoint_timeout、shared_buffers这两个参数统一考虑。这个参数同时影响WAL日志段文件复用
当设置GUC参数enable_resource_record为on时,系统会定时将GS_WLM_OPERATOR_HISTORY中的记录导入此系统表,开启此功能会占用系统存储空间并对性能有一定影响,建议在性能定位及监控任务完成后及时关闭。 GS_WLM_OPERATOR_INF
较,后续列依次类推。推荐不要超出3个列。 添加partial cluster key后,优化导入性能。 由于添加了partial cluster key,在导入时会增加排序计算,会对导入性能产生影响。当排序完全在内存中进行时影响较小,如果无法在内存中完成排序时,会下盘写临时文件,这时就会产生较大的影响。
当设置GUC参数enable_resource_record为on时,系统会定时将GS_WLM_OPERATOR_HISTORY中的记录导入此系统表,开启此功能会占用系统存储空间并对性能有一定影响,建议在性能定位及监控任务完成后及时关闭。 GS_WLM_OPERATOR_INF
据。当设置GUC参数enable_resource_record为on时,系统会定时将GS_WLM_SESSION_HISTORY中的记录导入此系统表。开启此功能会占用系统存储空间并对性能有一定影响,建议在性能定位及监控任务完成后及时关闭。 GS_WLM_SESSION_INFO系统表的schema为dbms_om。
分析表 执行计划生成器需要使用表的统计信息,以生成最有效的查询执行计划,提高查询性能。因此数据导入完成后,建议执行ANALYZE语句生成最新的表统计信息。统计结果存储在系统表PG_STATISTIC中。 分析表 ANALYZE支持的表类型有行/列存表、HDFS表、ORC/CARB
创建DATABASE时必须选择正确的数据库编码 违反规则的影响: 选错数据库编码可能导致数据乱码,且不支持直接修改数据库编码,需重新建库重新导入数据。 方案建议: 通常建议建库时指定ENCODING为UTF-8编码,特殊场景根据实际情况而定。 规则2.3 创建DATABASE时必须选择正确的数据库兼容模式