检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-23007 Loader进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测Loader进程的垃圾回收(GC)占用时间,当连续5次检测到Loader进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。垃圾回收(GC)时间小于阈值时,告警恢复。 告警属性
集群管理类 缩容Task节点失败 如何处理集群内部OBS证书过期 MRS集群更换磁盘(适用于2.x及之前) MRS集群更换磁盘(适用于3.x) MRS备份任务执行失败 Core节点出现df显示的容量和du显示的容量不一致 如何解除网络ACL的关联子网 修改节点主机名后导致MRS集群状态异常
ALM-43009 JobHistory GC 时间超出阈值(2.x及以前版本) 告警解释 系统每60秒周期性检测JobHistory进程的GC时间,当检测到JobHistory进程的GC时间超出阈值(连续3次检测超过12秒)时产生该告警。 用户可通过“系统设置 > 阈值配置 >
查看MRS集群运行状态 MRS支持创建多个集群,集群购买数量受弹性云服务器数量限制。用户可以通过管理控制台查看所有MRS集群运行状态。 查看MRS集群运行状态 登录MRS管理控制台。 选择“现有集群”,进入集群列表页面。 集群列表默认按创建时间顺序排列,集群列表参数说明如表1所示。
Yarn运维管理 Yarn常用配置参数 Yarn日志介绍 配置Yarn本地化日志级别 检测Yarn内存使用情况 更改NodeManager的存储目录 父主题: 使用Yarn
ResourceManager持续主备倒换 问题 RM(ResourceManager)在多个任务(比如2000个任务)正常并发运行时出现持续的主备倒换,导致YARN服务不可用。 回答 产生上述问题的原因是,full GC(GabageCollection)时间过长,超出了RM与ZK
Superior Scheduler REST API接口介绍 功能简介 REST/HTTP是Superior Scheduler在YARN资源管理器主机和YARN资源管理网络服务端口的一部分。通常以address:port as SS_REST_SERVER.的形式指示YARN。
ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值 告警解释 系统每60秒周期性检测NodeManager进程的垃圾回收(GC)占用时间,当检测到NodeManager进程的垃圾回收(GC)时间超出阈值(默认12秒)时,产生该告警。 垃圾回收(GC)时间小于阈值时
Spark Core调优 数据序列化 配置内存 设置并行度 使用广播变量 使用External Shuffle Service提升性能 Yarn模式下动态资源调度 配置进程参数 设计DAG 经验总结 父主题: Spark应用调优
ALM-12006 节点故障 告警解释 Controller按30秒周期检测NodeAgent心跳。当Controller未接收到某一个NodeAgent的心跳,则尝试重启该NodeAgent进程,如果连续三次重启失败,产生该告警。 当Controller可以正常接收时,告警恢复。
Flink性能调优 优化Flink内存GC参数 配置Flink任务并行度 配置Flink任务进程参数 优化Flink Netty网络通信参数 Flink作业RocksDB状态后端调优 配置Flink作业状态后端冷热数据分离存储 父主题: 使用Flink
Ranger性能调优 操作场景 Ranger给各组件提供权限策略,当使用Ranger的服务增多,需要调整Ranger的规格。 本章节仅适用MRS 3.2.0及之后版本。 内存参数配置 登录FusionInsight Manager页面,选择“集群 > 服务 > Ranger > 配置
配置Spark事件队列大小 配置场景 Spark中的UI、EventLog、动态资源调度等功能都是通过事件传递实现的。事件有SparkListenerJobStart、SparkListenerJobEnd等,记录了每个重要的过程。 每个事件在发生后都会保存到一个队列中,Driver
HDFS应用开发建议 HDFS的读写文件注意点 HDFS不支持随机读和写。 HDFS追加文件内容只能在文件末尾添加,不能随机添加。 只有存储在HDFS文件系统中的数据才支持append,edit.log以及数据元文件不支持Append。Append追加文件时,需要将“hdfs-site.xml
快速购买MRS集群 MRS包含了多种大数据组件,用户可基于企业大数据场景的业务场景、数据类型、可靠性要求以及资源预算等要求合理选择集群类型。 本章节以HBase查询集群为例介绍如何快速购买一个MRS集群。HBase集群使用Hadoop和HBase组件提供一个稳定可靠,性能优异、可伸缩
配置HetuEngine资源组 资源组介绍 资源组机制从资源分配的角度控制实例的整体查询负载,并可以对查询实施排队策略。可以在一个计算实例资源下创建多个资源组,并且每个提交的查询将分配给一个特定的资源组执行。在资源组执行新查询之前,将检查当前资源组的资源负载是否超过实例分配给它的资源量
ClickHouse企业级能力增强 ClickHouse多租户管理 查看ClickHouse慢查询语句 查看ClickHouse复制表数据同步监控 配置ClickHouse副本间数据强一致 配置ClickHouse支持事务能力 配置通过ELB访问ClickHouse 配置ClickHouse
Yarn企业级能力增强 配置Yarn权限控制开关 手动指定运行Yarn任务的用户 配置AM失败重试次数 配置AM自动调整分配内存 配置AM作业自动保留 配置Yarn数据访问通道协议 配置自定义调度器的WebUI 配置NodeManager角色实例使用的资源 配置ResourceManager
Spark SQL性能调优 Spark SQL join优化 优化数据倾斜场景下的Spark SQL性能 优化小文件场景下的Spark SQL性能 Spark INSERT SELECT语句调优 动态分区插入场景内存优化 小文件优化 聚合算法优化 Datasource表优化 合并CBO
配置HetuEngine查询容错执行能力 本章节适用于MRS 3.3.0及以后版本。 HetuEngine查询容错执行能力介绍 当集群中的节点因网络、硬件或软件问题发生故障时,在故障节点上运行的所有查询任务都将丢失。这可能会严重影响集群生产力并造成资源浪费,尤其对于长时间运行的查询影响较大