检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本章涉及的所有管道文件都是指linux上的命名管道。 在执行GDS导入导出时,为了确保数据导入或导出的正确性,需要在相同的兼容模式下操作。 例如:在MySQL兼容模式下导入(导出)的数据,同样需要在MySQL兼容模式下才能正确导出(导入)。 概述 通过外表导出数据:通过GDS外表设置的导出模
、移动互联网、O2O(Online to Offline)等行业提供强大的商业决策分析支持。 优势 数据迁移 多数据源,高效批量、实时数据导入。 高性能 PB级数据低成本的存储与万亿级数据关联分析秒级响应。 实时 业务数据流实时整合,及时对经营决策进行优化与调整。 图3 增强型ETL+实时BI分析
的场景。 处理方法 如果遇到写数据慢的问题,建议通过以下两种方式进行处理: 建议选择其他更加高效的数据导入方式,例如使用COPY方式导入数据。 有关导入方式的详细信息,请参见导入方式说明。 增大客户端并发数。 父主题: 集群性能
多样化的数据导入方式 GaussDB(DWS)支持多数据源高效入库,典型的入库方式如下所示。详细指导请参见迁移数据到GaussDB(DWS)章节。 从OBS并行导入数据 使用GDS从远端服务器导入数据 从MRS导入数据到集群 从GaussDB(DWS)集群导入数据到新集群 使用gsql元命令\COPY导入数据
AL日志段文件数量。每个日志文件大小为16MB。 参数类型:SIGHUP 取值范围:整型,最小值1 默认值:64 提升此参数可加快大数据的导入速度,但需要结合checkpoint_timeout、shared_buffers这两个参数统一考虑。这个参数同时影响WAL日志段文件复用
AL日志段文件数量。每个日志文件大小为16MB。 参数类型:SIGHUP 取值范围:整型,最小值1 默认值:64 提升此参数可加快大数据的导入速度,但需要结合checkpoint_timeout、shared_buffers这两个参数统一考虑。这个参数同时影响WAL日志段文件复用
由于DWS的表定义结构与Oracle存在差异,需要手动修改转换后的表定义。 如下,将文件中的\echo整体注释掉(如果使用gsql工具导入表定义的话,不需要注释),同时手动修改指定表的分布列(distribute by hash (列名))。 修改前: 修改后: Hash分布
WS)的数据导入、访问MRS集群、多维度分析、权限管理、JDBC开发、性能调优等场景。 表1 实验列表 场景 实验名称 实验描述 预计时长 导入分析 快速入门 一键式创建GaussDB(DWS)集群,上传csv本地数据到云存储OBS桶,通过创建OBS外表实现数据导入并简单分析。 1h
采取分片生成的策略。 Tpcds 1000X数据文件总大小约930GB,请确认ECS的磁盘空间足够。 由于生成的数据较大,只启动一个GDS导入数据会比较慢,建议均分两个数据盘来生成数据,如下示例,1-5分片存放至/data1/script/tpcds-kit/tpcds1000X
AL日志段文件数量。每个日志文件大小为16MB。 参数类型:SIGHUP 取值范围:整型,最小值1 默认值:64 提升此参数可加快大数据的导入速度,但需要结合checkpoint_timeout、shared_buffers这两个参数统一考虑。这个参数同时影响WAL日志段文件复用
据。当设置GUC参数enable_resource_record为on时,系统会定时将GS_WLM_SESSION_HISTORY中的记录导入此系统表,开启此功能会占用系统存储空间并对性能有一定影响,不建议用户使用。具体的字段请参考表1。 此系统表的schema是dbms_om。
据。当设置GUC参数enable_resource_record为on时,系统会定时将GS_WLM_SESSION_HISTORY中的记录导入此系统表,开启此功能会占用系统存储空间并对性能有一定影响,不建议用户使用。具体的字段请参考表1。 此系统表的schema是dbms_om。
据。当设置GUC参数enable_resource_record为on时,系统会定时将GS_WLM_SESSION_HISTORY中的记录导入此系统表,开启此功能会占用系统存储空间并对性能有一定影响,不建议用户使用。具体的字段请参考表1。 此系统表的schema是dbms_om。
较,后续列依次类推。推荐不要超出3个列。 添加partial cluster key后,优化导入性能。 由于添加了partial cluster key,在导入时会增加排序计算,会对导入性能产生影响。当排序完全在内存中进行时影响较小,如果无法在内存中完成排序时,会下盘写临时文件,这时就会产生较大的影响。
分析表 执行计划生成器需要使用表的统计信息,以生成最有效的查询执行计划,提高查询性能。因此数据导入完成后,建议执行ANALYZE语句生成最新的表统计信息。统计结果存储在系统表PG_STATISTIC中。 分析表 ANALYZE支持的表类型有行/列存表、HDFS表、ORC/CARB
较,后续列依次类推。推荐不要超出3个列。 添加partial cluster key后,优化导入性能。 由于添加了partial cluster key,在导入时会增加排序计算,会对导入性能产生影响。当排序完全在内存中进行时影响较小,如果无法在内存中完成排序时,会下盘写临时文件,这时就会产生较大的影响。
当设置GUC参数enable_resource_record为on时,系统会定时将GS_WLM_OPERATOR_HISTORY中的记录导入此系统表,开启此功能会占用系统存储空间并对性能有一定影响,不建议用户使用。 此系统表的schema是dbms_om。 pg_catalog
较,后续列依次类推。推荐不要超出3个列。 添加partial cluster key后,优化导入性能。 由于添加了partial cluster key,在导入时会增加排序计算,会对导入性能产生影响。当排序完全在内存中进行时影响较小,如果无法在内存中完成排序时,会下盘写临时文件,这时就会产生较大的影响。
当设置GUC参数enable_resource_record为on时,系统会定时将GS_WLM_OPERATOR_HISTORY中的记录导入此系统表,开启此功能会占用系统存储空间并对性能有一定影响,不建议用户使用。 此系统表的schema是dbms_om。 pg_catalog
当设置GUC参数enable_resource_record为on时,系统会定时将GS_WLM_OPERATOR_HISTORY中的记录导入此系统表,开启此功能会占用系统存储空间并对性能有一定影响,不建议用户使用。 此系统表的schema是dbms_om。 pg_catalog