检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
管理OBS数据源 GaussDB(DWS)支持以委托方式访问客户OBS上的数据,客户通过创建DWS云服务委托并授予OBS OperateAccess或OBS Administrator权限,然后在创建OBS数据源绑定该委托,便可通过OBS外表的方式访问OBS上的数据。 该特性仅8
在本示例中,将导入OBS数据到GaussDB(DWS)集群数据库中。云平台用户通过客户端或API、SDK等方式访问OBS时,需要通过AK/SK认证方式进行认证鉴权。因此,当您需要通过客户端或JDBC/ODBC应用程序等方式连接GaussDB(DWS)数据库访问OBS时,必须先获取访问密钥(AK和SK)。
从OBS并行导入数据 关于OBS并行导入 从OBS导入CSV、TXT数据 从OBS导入ORC、CARBONDATA数据 父主题: 导入数据
GS_OBS_READ_TRAFFIC GS_OBS_READ_TRAFFIC视图,统计OBS读流量和平均读带宽,统计结果按10分钟聚集。该视图仅8.2.0及以上集群版本支持。 名称 类型 描述 nodename TEXT 集群节点。 hostname TEXT 主机节点。 traffic_mb
通过外表查询OBS上的数据 直接查询外表查看OBS上的数据 如果数据量较少,可直接使用SELECT查询外表,即可查看到OBS上的数据。 执行以下命令,则可以从外表查询数据。 1 SELECT * FROM product_info_ext_obs; 查询结果显示与原始数据显示相
规划导出数据 OBS导出数据准备:请参见规划导出数据完成OBS导出数据准备。 OBS导出支持的数据类型请参见表1。 表1 ORC格式的只写外表与HIVE数据类型匹配关系 类型名称 GaussDB(DWS)内表支持类型(数据源表) GaussDB(DWS)只写外表对应的类型 HIVE建表类型
赋予所有华为云用户该OBS桶的只读访问权限,用户可以方便地进行导入。 操作流程 本实践预计时长60分钟,基本流程如下: 准备工作 步骤一:导入公司样例数据 步骤二:多表分析与主题分析 支持区域 当前已上传OBS数据的区域如表1所示。 表1 区域和OBS桶名 区域 OBS桶名 华北-北京一
USER_JOBS USER_JOBS视图为当前用户所属定时任务的详细信息。需要有系统管理员权限才可以访问此系统视图。 表1 USER_JOBS字段 名字 类型 描述 job int4 作业ID。 log_user name not null 创建者的UserName。 priv_user
TABLE (SQL on OBS or Hadoop) 功能描述 在当前数据库创建一个HDFS或OBS外表,用来访问存储在HDFS或者OBS分布式集群文件系统上的结构化数据。也可以导出ORC和PARQUET格式数据到HDFS或者OBS上。 数据存储在OBS:数据存储和计算分离,集群
均执行成功,产生数据覆盖现象,建议用户在执行OBS外表导出任务时,不要往同一OBS外表并发导出。 多表并发导出操作步骤 通过创建的两个外表,将数据库中的两个表分别导出至OBS的桶中。 用户通过管理控制台登录到OBS数据服务器。在OBS数据服务器上,分别创建数据文件存放的两个桶“/
ALTER FOREIGN TABLE (For HDFS or OBS) 功能描述 对HDFS外表和OBS外表进行修改。 注意事项 无。 语法格式 设置外表属性: 1 2 ALTER FOREIGN TABLE [ IF EXISTS ] table_name OPTIONS
“foldername”:必选参数。数据源文件的OBS路径,此处仅需要填写“/桶名/文件夹目录层级/”。 可以先通过OBS上的数据准备中的2获取数据源文件的完整的OBS路径,该路径为OBS服务的终端节点(Endpoint)。 “totalrows”:可选参数。该参数不是导入的总行数。由于OBS上文件可能很多,执
FOREIGN TABLE IF EXISTS product_info_ext_obs; ---建立不包含分区列的OBS外表,表关联的外部服务器为obs_server,表对应的OBS服务上的文件格式为‘orc’,OBS上的数据存储路径为'/mybucket/data/'。 CREATE
据。 根据规划准备OBS存储位置和OBS桶的写权限 创建OBS桶,并在OBS桶中新建文件夹作为导出数据的存放目录。 登录OBS管理控制台。 单击“服务列表”,选择“对象存储服务”,打开OBS管理控制台页面。 创建桶。 如何创建OBS桶,具体请参见《对象存储服务控制台指南》中的创建桶章节。
region。 TEXT、CSV格式的OBS导入导出外表格式参数使用说明如下: location参数必选,其中前缀gsobs、obs均支持,都识别为OBS的信息,若为gsobs时,其中包含obs url、bucket、prefix,若为obs时则表示bucket、prefix。
确保安全。 TYPE表示创建的Server为OBS Server。请保持OBS取值不变。 创建OBS外表json_f ,定义字段名,以d#2_e为例,从命名可以看出该字段是数组d的第二个元素里嵌套的e对象。表关联的OBS服务器为obs_server。foldername为外表中数
存在。 OPTIONS参数 address 指定OBS服务的终端节点。 address的获取方法如下: 先通过OBS上的数据准备中的2获取OBS路径。 在OBS上查看到的OBS路径,为OBS服务终端节点(Endpoint):obs.example.com。 访问密钥(AK和SK)(必选)
ALTER FOREIGN TABLE (For HDFS or OBS) 功能描述 对HDFS外表和OBS外表进行修改。 注意事项 无。 语法格式 设置外表属性: 1 2 ALTER FOREIGN TABLE [ IF EXISTS ] table_name OPTIONS
在执行数据导入前,您可以参考以下优秀实践方法进行合理的设计部署,最大化的使用系统资源,以提高数据导入性能。 OBS的数据导入性能,多数场景受限于网络的并发访问速率,因此在OBS服务器上最好部署多个桶,使用多桶并发导入,提高DN数据传输利用率。 并发导入场景,与单表导入相似,至少应保证I/O性能大于网络最大速率。
数据如何存储到GaussDB(DWS)? GaussDB(DWS)支持多数据源高效入库,典型的入库方式如下所示。详细指导请参见导入数据。 从OBS导入数据。 数据上传到OBS对象存储服务中,再从OBS中导入,支持CSV,TEXT格式数据。 通过INSERT语句直接插入数据。 用户可以通过GaussDB(DWS