检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为方便起见,以在MRS集群上创建Hive ORC表作为示例,完成上述准备工作。在MRS集群上创建Spark ORC表的大致流程和SQL语法,同Hive类似,在本文中不再展开描述。 数据文件 假设有数据文件product_info.txt,示例数据如下所示: 100,XHDK-A-1293-#fJ3
SQLSTATE: 无 错误原因:在各节点上核实SSH互信失败。 解决办法:请联系技术支持工程师提供技术支持。 GAUSS-51101:"SSH exception: \n%s." SQLSTATE: 无 错误原因:远程连接异常。 解决办法:检查确保网络连接必须正常;检查确保远程机器的IP及登录用户和密码必须正确。
GDS服务需单独使用服务器部署在DWS集群外 违反规范的影响: GDS如果部署在DWS集群内,会与DWS集群CN/DN节点发生资源争抢,导致双方性能同时劣化。 方案建议: GDS服务单独使用服务器部署在DWS集群外。 GDS所在服务器的磁盘能力、GDS服务器与DWS集群间网络带宽都要按需规划。
GDS服务需单独使用服务器部署在DWS集群外 违反规范的影响: GDS如果部署在DWS集群内,会与DWS集群CN/DN节点发生资源争抢,导致双方性能同时劣化。 方案建议: GDS服务单独使用服务器部署在DWS集群外。 GDS所在服务器的磁盘能力、GDS服务器与DWS集群间网络带宽都要按需规划。
网络地址类型 GaussDB(DWS)提供用于存储IPv4、IPv6、MAC地址的数据类型。 网络地址类型提供输入错误检查和特殊的操作和功能(请参见网络地址函数和操作符),比纯文本类型更适合存储IPv4、IPv6、MAC地址的数据类型。 表1 网络地址类型 名字 存储空间 描述 cidr
创建弹性云服务器ECS 参考《弹性云服务器用户指南》创建弹性云服务器,创建的规格可参见下表。 由于TPC-DS、TPC-H数据集占用空间较大,以TPC-DS 1000X和TPC-H 1000X为例,分别占用930GB和1100GB。请创建弹性云服务器时,根据需求添加数据盘,举例如下:
存交换,不会增加网络负担。而非Local类算子,需要通过网络进行数据交换,因此会加重网络负担。当网络资源成为瓶颈的情况下,并行可能会导致一定程度的劣化。 I/O资源 要实现并行扫描必定会增加I/O的资源消耗,因此只有在I/O资源充足的情况下,并行扫描才能够提高扫描性能。 其他因素对SMP性能的影响
网络地址函数 函数abbrev,host,text主要是为了提供可选的显示格式。 任何cidr值都能以显式或者隐式的方式转换为inet值,因此能够操作inet值的函数也同样能够操作cidr值。inet值也可以转换为cidr值,此时inet子网掩码右侧的所有位都将转换为零,以创建一
存交换,不会增加网络负担。而非Local类算子,需要通过网络进行数据交换,因此会加重网络负担。当网络资源成为瓶颈的情况下,并行可能会导致一定程度的劣化。 I/O资源 要实现并行扫描必定会增加I/O的资源消耗,因此只有在I/O资源充足的情况下,并行扫描才能够提高扫描性能。 其他因素对SMP性能的影响
网络地址函数 函数abbrev,host,text主要是为了提供可选的显示格式。 任何cidr值都能以显式或者隐式的方式转换为inet值,因此能够操作inet值的函数也同样能够操作cidr值。inet值也可以转换为cidr值,此时inet子网掩码右侧的所有位都将转换为零,以创建一
如果操作系统不支持TCP_KEEPINTVL选项,这个参数的值必须为0。 在通过Unix域套接字进行的连接的操作系统上,这个参数将被忽略。 tcp_keepalives_count 参数说明:在支持TCP_KEEPCNT套接字选项的操作系统上,设置GaussDB(DWS)服务端在断开与客户端连接之前可以等待的保持活跃信号个数。
如果操作系统不支持TCP_KEEPINTVL选项,则此参数的值必须为0。 在通过Unix域套接字进行的连接的操作系统上,此参数将被忽略。 tcp_keepalives_count 参数说明:在支持TCP_KEEPCNT套接字选项的操作系统上,设置GaussDB(DWS)服务端在断开与客户端连接之前可以等待的保持活跃信号个数。
on GDS connection %s: %m. 解决方案:数据库与GDS交换数据时出错。对端GDS可能运行在带SSL认证的安全模式,请检查GDS与DN之间的网络连接、网络环境、节点系统端口是否正常,查看GDS的“WARNING”和“ERROR”日志,定位原因。 level: ERROR
pem SSL认证方式及客户端参数介绍 SSL认证有两种认证方式,如表1所示。从安全性考虑,建议使用双向认证方式。 表1 认证方式 认证方式 含义 配置客户端环境变量 维护建议 双向认证(推荐) 客户端验证服务器证书的有效性,同时服务器端也要验证客户端证书的有效性,只有认证成功,连接才能建立。
pem SSL认证方式及客户端参数介绍 SSL认证有两种认证方式,如表1所示。从安全性考虑,建议使用双向认证方式。 表1 认证方式 认证方式 含义 配置客户端环境变量 维护建议 双向认证(推荐) 客户端验证服务器证书的有效性,同时服务器端也要验证客户端证书的有效性,只有认证成功,连接才能建立。
OBS上的数据准备 操作场景 使用SQL on OBS功能查询OBS数据之前: 已将ORC数据存储在OBS上。 例如,在使用Hive或Spark等组件时创建了ORC表,其表数据已经存储在OBS上的场景。 假设有2个ORC数据文件“product_info.0”和“product_info
使用GDS从远端服务器导入数据 关于GDS并行导入 准备源数据 安装配置和启动GDS 创建GDS外表 执行导入数据 处理导入错误 停止GDS GDS导入示例 父主题: 导入数据
id) 描述:在CN上执行该函数,返回集群中所有CN上指定数据库活跃的服务器线程总数。在DN上执行该函数,返回当前实例上指定数据库活跃的服务器线程数目。 返回值类型:integer pg_stat_get_db_xact_commit(oid) 描述:返回当前实例上指定数据库中已提交事务的数量。
(DWS)最终可以通过外表将数据服务器上的数据引流进数据库实表中。 操作步骤 收集数据源格式信息、GDS服务的访问信息。 需要收集的主要数据源格式信息如下: format:GDS外表导入支持CSV、TEXT和FIXED格式。请确认存放在数据服务器上待入库数据的格式。例如,待入库的数据为CSV格式。
使用GDS导出数据到远端服务器 关于GDS并行导出 规划导出数据 安装配置和启动GDS 创建GDS外表 执行导出数据 停止GDS GDS导出示例 父主题: 导出数据