检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在执行数据导入前,您可以参考以下优秀实践方法进行合理的设计部署,最大化的使用系统资源,以提高数据导入性能。 OBS的数据导入性能,多数场景受限于网络的并发访问速率,因此在OBS服务器上最好部署多个桶,使用多桶并发导入,提高DN数据传输利用率。 并发导入场景,与单表导入相似,至少应保证I/O性能大于网络最大速率。
据。 根据规划准备OBS存储位置和OBS桶的写权限 创建OBS桶,并在OBS桶中新建文件夹作为导出数据的存放目录。 登录OBS管理控制台。 单击“服务列表”,选择“对象存储服务”,打开OBS管理控制台页面。 创建桶。 如何创建OBS桶,具体请参见《对象存储服务控制台指南》中的创建桶章节。
进入“我的凭证”后,在左侧导航树单击“访问密钥”。 在访问密钥页面,可以查看已有的访问密钥ID(即AK)。 如果要同时获取AK和SK,单击“新增访问密钥”创建并下载访问密钥。 账户OBS权限不足,对OBS桶没有读、写权限 您必须给指定的用户授予所需的OBS访问权限: 通过OBS外表导入数据到Gau
对于特殊的数据类型如RAW类型,在导出之后是一个二进制文本,导入工具无法识别。需使用RAWTOHEX()函数将其转换为16进制文本导出。 父主题: 导出ORC数据到OBS
题,处理错误表。 处理数据导入错误 根据获取的错误信息,请对照下表,处理数据导入错误。 表2 处理数据导入错误 错误信息 错误类型 原因 解决办法 missing data for column "r_reason_desc" 格式错误 数据源文件中的列数比外表定义的列数少。 对
product_info_ext_obs; 当结果显示为如下信息,则表示删除成功。 1 DROP FOREIGN TABLE 删除创建的外部服务器 使用创建外部服务器的用户连接到外部服务器所在的数据库。 在本示例中,使用的是普通用户dbuser在数据库mydatabase中创建了一个外部服务器。用户需
对于特殊的数据类型如RAW类型,在导出之后是一个二进制文本,导入工具无法识别。需使用RAWTOHEX()函数将其转换为16进制文本导出。 父主题: 导出CSV、TXT数据到OBS
APPY、LZ4及NONE压缩方式。其中FLOAT4格式本身存在不精准问题,求和等操作在不同环境下可能产生不同的结果,在高精度要求场景下建议使用DECIMAL类型代替。 兼容Teradata数据库模式下,外表不支持DATE类型。 父主题: 从OBS导入ORC、CARBONDATA数据
behavior_compat_options='display_leading_zero'; 再执行查询视图语句“select * from pgxc_obs_io_scheduler_periodic_stats;” 显示结果如下: SELECT * FROM pgxc_obs_io_sche
PGXC_OBS_IO_SCHEDULER_STATS 查询OBS IO Scheduler读/写请求相关的近期实时统计信息。该系统视图仅9.1.0及以上版本支持。 表1 PGXC_OBS_IO_SCHEDULER_STATS字段 名称 类型 描述 node_name text 节点名称。
赋予所有华为云用户该OBS桶的只读访问权限,用户可以方便地进行导入。 操作流程 本实践预计时长60分钟,基本流程如下: 准备工作 步骤一:导入公司样例数据 步骤二:多表分析与主题分析 支持区域 当前已上传OBS数据的区域如表1所示。 表1 区域和OBS桶名 区域 OBS桶名 华北-北京一
USER_JOBS USER_JOBS视图为当前用户所属定时任务的详细信息。需要有系统管理员权限才可以访问此系统视图。 表1 USER_JOBS字段 名字 类型 描述 job int4 作业ID。 log_user name not null 创建者的UserName。 priv_user
USER_JOBS USER_JOBS视图为当前用户所属定时任务的详细信息。需要有系统管理员权限才可以访问此系统视图。 表1 USER_JOBS字段 名字 类型 描述 job int4 作业ID。 log_user name not null 创建者的UserName。 priv_user
GS_OBSSCANINFO GS_OBSSCANINFO系统表定义了在云上加速场景中,使用加速集群时扫描OBS数据的运行时信息,每条记录对应一个query中单个OBS外表的运行时信息。 表1 GS_OBSSCANINFO字段 名字 类型 引用 描述 query_id bigint
PG_JOBS PG_JOBS系统表存储用户创建的定时任务的任务详细信息,定时任务线程定时轮询pg_jobs系统表中的时间,当任务到期会触发任务的执行。该系统表属于Shared Relation,所有创建的job记录对所有数据库可见。 表1 PG_JOBS字段 名字 类型 描述 job_id
创建Hudi数据描述(外表) 外表是对OBS上数据的映射。GaussDB(DWS)通过外表方式访问OBS上的Hudi数据,具体可参见CREATE FOREIGN TABLE (SQL on OBS or Hadoop)。 与一般OBS外表相比,Hudi外表没有特别的参数需要指定,
GS_OBS_LATENCY GS_OBS_LATENCY记录logtime之前10分钟内OBS的平均延迟信息,延迟数据是根据相关OBS的操作进行估算的结果。该视图仅8.2.0及以上集群版本支持。 表1 GS_OBS_LATENCY字段 名称 类型 描述 nodename text
GS_OBSSCANINFO GS_OBSSCANINFO系统表定义了在云上加速场景中,使用加速集群时扫描OBS数据的运行信息,每条记录对应一个query中单个OBS外表的运行时信息。 表1 GS_OBSSCANINFO字段 名字 类型 描述 query_id bigint 查询标识。
PG_OBSSCANINFO PG_OBSSCANINFO系统表定义了在云上加速场景中,使用加速集群时扫描OBS数据的运行时信息,每条记录对应一个query中单个OBS外表的运行时信息。 表1 PG_OBSSCANINFO字段 名字 类型 引用 描述 query_id bigint
PG_OBSSCANINFO PG_OBSSCANINFO系统表定义了在云上加速场景中,使用加速集群时扫描OBS数据的运行时信息,每条记录对应一个query中单个OBS外表的运行时信息。 表1 PG_OBSSCANINFO字段 名字 类型 引用 描述 query_id bigint