正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark Core调优 数据序列化 配置内存 设置并行度 使用广播变量 使用External Shuffle Service提升性能 Yarn模式下动态资源调度 配置进程参数 设计DAG 经验总结 父主题: Spark应用调优
配置用户租约隔离访问指定节点的HiveServer 操作场景 此功能适用于Hive。 开启此功能可以限定指定用户访问指定节点上的HiveServer服务,实现对用户访问HiveServer服务的资源隔离。 本章节适用于MRS 3.x及后续版本。 操作步骤 以对用户hiveuser设置租约隔离为例
配置Flume对接安全模式Kafka 新增jaas.conf文件,并保存到“${Flume客户端安装目录}/conf”下,jaas.conf文件内容如下: KafkaClient { com.sun.security.auth.module.Krb5LoginModule required
配置Flume对接安全模式Kafka 使用Flume客户端对接安全kafka。 新增jaas.conf文件,并保存到“${Flume客户端安装目录}/conf”下,jaas.conf文件内容如下: KafkaClient { com.sun.security.auth.module.Krb5LoginModule
配置用户租约隔离访问指定节点的HiveServer Hive用户租约隔离即可以限定指定用户访问指定节点上的HiveServer服务,实现对用户访问HiveServer服务的资源隔离。 操作步骤 以对用户hiveuser设置租约隔离为例,选取Hive当前已有的或者新添加一个或者多个实例
HetuEngine性能调优 调整Yarn资源分配 调整HetuEngine集群节点资源配置 调整HetuEngine INSERT写入优化 调整HetuEngine元数据缓存 调整HetuEngine动态过滤 开启HetuEngine自适应查询执行 调整Hive元数据超时 调整Hudi
配置MapReduce应用安全认证 场景说明 在安全集群环境下,各个组件之间的相互通信不能够简单的互通,而需要在通信之前进行相互认证,以确保通信的安全性。 用户在提交MapReduce应用程序时,需要与Yarn、HDFS等之间进行通信。那么提交MapReduce的应用程序中需要写入安全认证代码
Spark SQL企业级能力增强 配置矢量化读取ORC数据 配置过滤掉分区表中路径不存在的分区 配置Drop Partition命令支持批量删除 配置Hive表分区动态覆盖 配置Spark SQL开启Adaptive Execution特性 父主题: 使用Spark/Spark2x
配置SparkSQL业务用户权限 操作场景 SparkSQL业务还可能需要关联使用其他组件,例如spark on HBase需要HBase权限。以下介绍SparkSQL关联HBase服务的操作。 前提条件 完成Spark客户端的安装,例如安装目录为“/opt/client”。 获取一个拥有
配置SparkSQL业务用户权限 操作场景 SparkSQL业务还可能需要关联使用其他组件,例如Spark on HBase需要HBase权限。以下介绍SparkSQL关联HBase服务的操作。 前提条件 完成Spark客户端的安装,例如安装目录为“/opt/client”。 获取一个拥有
Spark2x多主实例 背景介绍 基于社区已有的JDBCServer基础上,采用多主实例模式实现了其高可用性方案。集群中支持同时共存多个JDBCServer服务,通过客户端可以随机连接其中的任意一个服务进行业务操作。即使集群中一个或多个JDBCServer服务停止工作,也不影响用户通过同一个客户端接口连接其他正常的
Kafka 样例工程配置文件说明 Conf目录个各配置文件及重要参数配置说明 Producer API配置项 表1 producer.properties文件配置项 参数 描述 备注 security.protocol 安全协议类型 生产者使用的安全协议类型,当前Kerberos开启的模式下仅支持
Spark SQL企业级能力增强 配置矢量化读取ORC数据 配置过滤掉分区表中路径不存在的分区 配置Hive表分区动态覆盖 配置Spark SQL开启Adaptive Execution特性 配置SparkSQL的分块个数 父主题: 使用Spark2x(MRS 3.x及之后版本)
Spark Core性能调优 Spark Core数据序列化 Spark Core内存调优 Spark Core内存调优 配置Spark Core广播变量 配置Spark Executor堆内存参数 配置Yarn模式下Spark动态资源调度 调整Spark Core进程参数 Spark
通过Hue管理HDFS文件 操作场景 Hue提供了文件浏览器功能,使用户可以通过界面图形化的方式使用HDFS。 Hue界面主要用于文件、表等数据的查看与分析,禁止通过Hue界面对操作对象进行删除等高危管理操作。如需操作,建议在确认对业务没有影响后通过各组件的相应操作方法进行处理,例如使用
Spark Core性能调优 Spark Core数据序列化 Spark Core内存调优 设置Spark Core并行度 配置Spark Core广播变量 配置Spark Executor堆内存参数 使用External Shuffle Service提升Spark Core性能
创建SparkSQL角色 操作场景 该任务指导MRS集群管理员在Manager创建并设置SparkSQL的角色。SparkSQL角色可设置Spark管理员权限以及数据表的数据操作权限。 用户使用Hive并创建数据库需要加入hive组,不需要角色授权。用户在Hive和HDFS中对自己创建的数据库或表拥有完整权限
创建SparkSQL角色 操作场景 该任务指导MRS集群管理员在Manager创建并设置SparkSQL的角色。SparkSQL角色可设置Spark管理员权限以及数据表的数据操作权限。 用户使用Hive并创建数据库需要加入hive组,不需要角色授权。用户在Hive和HDFS中对自己创建的数据库或表拥有完整权限
Spark SQL性能调优 Spark SQL join优化 优化数据倾斜场景下的Spark SQL性能 优化小文件场景下的Spark SQL性能 Spark INSERT SELECT语句调优 动态分区插入场景内存优化 小文件优化 聚合算法优化 Datasource表优化 合并CBO
静态服务资源概述 静态服务资源简介 集群分配给各个服务的资源是静态服务资源,这些服务包括Flume、HBase、HDFS、IoTDB、Kafka(Kafka组件仅MRS 3.2.0及之后版本支持静态服务池)和Yarn。每个服务的计算资源总量固定,不与其他服务共享,是静态的。租户通过独占或共享一个服务来获取这个服务运行时需要的资源