正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hudi任务同步 创建Hudi任务 迁移场景 如果GaussDB(DWS)表已经通过CDL导入数据,改为用SQL on Hudi方式迁移数据。或者是用CDM做全量初始化后,继续使用SQL on Hudi方式同步增量数据。 1. 创建hudi.hudi_sync_state同步状态表,需要管理员权限。
有关gsql的命令参考和更多信息,请参见元命令参考。 (可选)使用gsql导入TPC-DS样例数据 GaussDB(DWS) 支持用户将数据从集群外导入到集群中。用户可以参考以下指导,快速将样例数据从OBS导入集群,并对样例数据进行查询和分析。导入的样例数据是使用TPC-DS测试基准生成的标准性能测试数据。
有关gsql的命令参考和更多信息,请参见《数据仓库服务工具指南》。 (可选)使用gsql导入TPC-DS样例数据 GaussDB(DWS)支持用户将数据从集群外导入到集群中。用户可以参考以下指导,快速将样例数据从OBS导入集群,并对样例数据进行查询和分析。导入的样例数据是使用TPC-DS测试基准生成的标准性能测试数据。
本章涉及的所有管道文件都是指linux上的命名管道。 在执行GDS导入导出时,为了确保数据导入或导出的正确性,需要在相同的兼容模式下操作。 例如:在MySQL兼容模式下导入(导出)的数据,同样需要在MySQL兼容模式下才能正确导出(导入)。 概述 通过外表导出数据:通过GDS外表设置的导出模
的场景。 处理方法 如果遇到写数据慢的问题,建议通过以下两种方式进行处理: 建议选择其他更加高效的数据导入方式,例如使用COPY方式导入数据。 有关导入方式的详细信息,请参见导入方式说明。 增大客户端并发数。 父主题: 集群性能
采取分片生成的策略。 Tpcds 1000X数据文件总大小约930GB,请确认ECS的磁盘空间足够。 由于生成的数据较大,只启动一个GDS导入数据会比较慢,建议均分两个数据盘来生成数据,如下示例,1-5分片存放至/data1/script/tpcds-kit/tpcds1000X
、移动互联网、O2O(Online to Offline)等行业提供强大的商业决策分析支持。 优势 数据迁移 多数据源,高效批量、实时数据导入。 高性能 PB级数据低成本的存储与万亿级数据关联分析秒级响应。 实时 业务数据流实时整合,及时对经营决策进行优化与调整。 图3 增强型ETL+实时BI分析
多样化的数据导入方式 GaussDB(DWS)支持多数据源高效入库,典型的入库方式如下所示。详细指导请参见迁移数据到GaussDB(DWS)章节。 从OBS并行导入数据 使用GDS从远端服务器导入数据 从MRS导入数据到集群 从GaussDB(DWS)集群导入数据到新集群 使用gsql元命令\COPY导入数据
WS)的数据导入、访问MRS集群、多维度分析、权限管理、JDBC开发、性能调优等场景。 表1 实验列表 场景 实验名称 实验描述 预计时长 导入分析 快速入门 一键式创建GaussDB(DWS)集群,上传csv本地数据到云存储OBS桶,通过创建OBS外表实现数据导入并简单分析。 1h
AL日志段文件数量。每个日志文件大小为16MB。 参数类型:SIGHUP 取值范围:整型,最小值1 默认值:64 提升此参数可加快大数据的导入速度,但需要结合checkpoint_timeout、shared_buffers这两个参数统一考虑。这个参数同时影响WAL日志段文件复用
据。当设置GUC参数enable_resource_record为on时,系统会定时将GS_WLM_SESSION_HISTORY中的记录导入此系统表,开启此功能会占用系统存储空间并对性能有一定影响,不建议用户使用。具体的字段请参考表1。 此系统表的schema是dbms_om。
AL日志段文件数量。每个日志文件大小为16MB。 参数类型:SIGHUP 取值范围:整型,最小值1 默认值:64 提升此参数可加快大数据的导入速度,但需要结合checkpoint_timeout、shared_buffers这两个参数统一考虑。这个参数同时影响WAL日志段文件复用
据。当设置GUC参数enable_resource_record为on时,系统会定时将GS_WLM_SESSION_HISTORY中的记录导入此系统表,开启此功能会占用系统存储空间并对性能有一定影响,不建议用户使用。具体的字段请参考表1。 此系统表的schema是dbms_om。
AL日志段文件数量。每个日志文件大小为16MB。 参数类型:SIGHUP 取值范围:整型,最小值1 默认值:64 提升此参数可加快大数据的导入速度,但需要结合checkpoint_timeout、shared_buffers这两个参数统一考虑。这个参数同时影响WAL日志段文件复用
据。当设置GUC参数enable_resource_record为on时,系统会定时将GS_WLM_SESSION_HISTORY中的记录导入此系统表,开启此功能会占用系统存储空间并对性能有一定影响,不建议用户使用。具体的字段请参考表1。 此系统表的schema是dbms_om。
由于DWS的表定义结构与Oracle存在差异,需要手动修改转换后的表定义。 如下,将文件中的\echo整体注释掉(如果使用gsql工具导入表定义的话,不需要注释),同时手动修改指定表的分布列(distribute by hash (列名))。 修改前: 修改后: Hash分布
分析表 执行计划生成器需要使用表的统计信息,以生成最有效的查询执行计划,提高查询性能。因此数据导入完成后,建议执行ANALYZE语句生成最新的表统计信息。统计结果存储在系统表PG_STATISTIC中。 分析表 ANALYZE支持的表类型有行/列存表、HDFS表、ORC/CARB
较,后续列依次类推。推荐不要超出3个列。 添加partial cluster key后,优化导入性能。 由于添加了partial cluster key,在导入时会增加排序计算,会对导入性能产生影响。当排序完全在内存中进行时影响较小,如果无法在内存中完成排序时,会下盘写临时文件,这时就会产生较大的影响。
配置目的端作业参数,根据待导入数据的云服务配置对应参数。 表2 目的端作业参数 参数名 取值样例 模式或表空间 db_user01 自动创表 不自动创建 表名 apex2_dynamic_add_remain_test 导入开始前 清除全部数据 导入模式 COPY 先导入阶段表 否 导入前准备语句
当设置GUC参数enable_resource_record为on时,系统会定时将GS_WLM_OPERATOR_HISTORY中的记录导入此系统表,开启此功能会占用系统存储空间并对性能有一定影响,不建议用户使用。 此系统表的schema是dbms_om。 pg_catalog