检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
全部配置”。 参数说明 表1 Hive参数说明 参数 参数说明 默认值 hive.auto.convert.join Hive基于输入文件大小将普通join转为mapjoin的开关。 说明: 在使用Hive进行联表查询,且关联的表无大小表的分别(小表数据<24M)时,建议将此参数值改为f
用数据库连接器来说,导出、导入速度更快。 使用mysql-fastpath-connector时,要求在NodeManager节点上有MySQL的mysqldump和mysqlimport命令,并且此两个命令所属MySQL客户端版本与MySQL服务器版本兼容,如果没有这两个命令或版本不兼容,请参考http://dev
ZooKeeper常用配置参数 参数入口: 请参考修改集群服务配置参数,进入ZooKeeper“全部配置”页面。在搜索框中输入参数名称。 表1 参数说明 配置参数 说明 默认值 skipACL 是否跳过ZooKeeper节点的权限检查。 no maxClientCnxns Zoo
badRecords.location - 指定Bad records的存储路径。此路径为HDFS路径。默认值为Null。如果启用了bad records日志记录或者bad records操作重定向,则该路径必须由用户进行配置。 carbon.bad.records.action
在使用spark-submit命令时,添加“--executor-memory MEM”参数设置内存。 示例 在执行spark wordcount计算中。1.6T数据,250个executor。 在默认参数下执行失败,出现Futures timed out和OOM错误。 因为数据量大,t
conf”配置文件中设置如下参数,配置完成后,重新执行Spark CLI即可。 当参数值为“true”时,需要保证“spark-defaults.conf”和“hive-site.xml”中的Keytab和principal的值相同。 表3 参数说明 参数名称 含义 默认值 spark.kerberos
Hive对接外置自建关系型数据库 本章节适用于MRS 3.x及后续版本。 自建关系型数据库:本章节以对接开源MySQL和Postgres数据库进行说明。 在已有Hive数据的集群上外置元数据库后,之前的元数据表不会自动同步。因此在安装Hive之初就要确认好元数据是外置数据库还是内置到DBS
HBase JVM参数优化说明 操作场景 当集群数据量达到一定规模后,JVM的默认配置将无法满足集群的业务需求,轻则集群变慢,重则集群服务不可用。所以需要根据实际的业务情况进行合理的JVM参数配置,提高集群性能。 操作步骤 参数入口: HBase角色相关的JVM参数需要配置在安装有
配置Hive数据连接 参数 说明 组件名称 Hive 模块类型 Hive元数据 连接类型 RDS服务PostgreSQL数据库(1.9.x版本支持) RDS服务MySQL数据库 本地数据库 连接实例 当“连接类型”参数选择“RDS服务PostgreSQL数据库”或“RDS服务MySQL数据库”
用数据库连接器来说,导出、导入速度更快。 使用mysql-fastpath-connector时,要求在NodeManager节点上有MySQL的mysqldump和mysqlimport命令,并且此两个命令所属MySQL客户端版本与MySQL服务器版本兼容,如果没有这两个命令或版本不兼容,请参考http://dev
Spark任务需要调整executor的overhead内存,设置了参数spark.yarn.executor.memoryOverhead=4096,但实际计算的时候依旧按照默认值1024申请资源。 原因分析 从Spark 2.3版本开始,推荐使用新参数spark.executor.memoryOv
接”。 在数据连接列表的单击待查看的数据连接名称,在弹出的页面查看该数据连接的详细信息。 例如查看RDS服务MySQL数据库数据连接信息如下: 图1 查看RDS服务MySQL数据库数据连接信息 删除数据连接 登录MRS管理控制台,在导航栏选择“数据连接”。 在数据连接列表的操作列,单击待删除数据连接所在行的“删除
generic-jdbc-connector:参数配置请参见表1。 ftp-connector:参数配置请参见表2。 sftp-connector:参数配置请参见表3。 hdfs-connector:参数配置请参见表4。 oracle-connector:参数配置请参见表5。 mysql-fastpath-
用数据库连接器来说,导出、导入速度更快。 使用mysql-fastpath-connector时,要求在NodeManager节点上有MySQL的mysqldump和mysqlimport命令,并且此两个命令所属MySQL客户端版本与MySQL服务器版本兼容,如果没有这两个命令或版本不兼容,请参考http://dev
用数据库连接器来说,导出、导入速度更快。 使用mysql-fastpath-connector时,要求在NodeManager节点上有MySQL的mysqldump和mysqlimport命令,并且此两个命令所属MySQL客户端版本与MySQL服务器版本兼容,如果没有这两个命令或版本不兼容,请参考http://dev
连接”新创建一个数据连接。 图2 使用RDS服务MySQL数据库 当用户选择的数据连接为“RDS服务MySQL数据库”时,请确保使用的数据库用户为root用户。如果为非root用户,需要先以root用户登录到数据库执行如下SQL命令为该数据库用户进行赋权,其中${db_name}
max.dynamic.partitions”参数控制(默认值为1000)。 如果超过此限制,Hive将不会创建新的动态分区。 处理步骤 调整上层业务,将动态分区数控制在“hive.exec.max.dynamic.partitions”参数值范围内。 执行set hive.exec
用数据库连接器来说,导出、导入速度更快。 使用mysql-fastpath-connector时,要求在NodeManager节点上有MySQL的mysqldump和mysqlimport命令,并且此两个命令所属MySQL客户端版本与MySQL服务器版本兼容,如果没有这两个命令或版本不兼容,请参考http://dev
在使用spark-submit命令时,添加“--executor-memory MEM”参数设置内存。 示例 在执行spark wordcount计算中。1.6T数据,250个executor。 在默认参数下执行失败,出现Futures timed out和OOM错误。 因为数据量大,t
据同时被删除,如需保存元数据,需提前前往数据库手动保存元数据。 外置数据连接:MRS集群创建完成后,可选择关联与当前集群同一虚拟私有云和子网的RDS服务中的PostgresDB或MySQL数据库或云数据库GaussDB(for MySQL)、也可以选择与当前集群同一虚拟私有云和子