检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HDFS日志文件过大导致OS盘空间不足 用户问题 OS盘/var/log分区空间不足。 问题现象 “/var/log/Bigdata/hdfs/*/hdfs-omm-*.out”日志文件过大,造成OS盘/var/log分区空间不足。 原因分析 在HDFS长时间运行场景下,操作系统会把JVM创建的“/tmp/
本章节适用于MRS 3.3.0及以后版本。 告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Pending Co
Hue常用配置参数 参数入口 参数入口,请参考修改集群服务配置参数。 参数说明 表1 Hue常用参数 配置参数 说明 缺省值 范围 HANDLER_ACCESSLOG_LEVEL 表示Hue的访问日志级别。 DEBUG ERROR WARN INFO DEBUG HANDLER_AUDITSLOG_LEVEL
沿用作为安全认证的概念,该系统设计上采用客户端/服务器结构与DES、AES等加密技术,并且能够进行相互认证,即客户端和服务器端均可对对方进行身份认证。可以用于防止窃听、防止replay攻击、保护数据完整性等场景,是一种应用对称密钥体制进行密钥管理的系统。 Kerberos认证协议,主要包含三个角色:
OpenTSDB系统表简介 OpenTSDB是基于HBase存储时序数据的,在集群中开启OpenTSDB后,系统会在集群中创建4张HBase表。OpenTSDB系统表如所表1示。 请不要人为去修改这4张HBase表,因为这可能会导致OpenTSDB不可用。 表1 Opentsdb系统表 表名
是 告警参数 参数名称 参数含义 来源 产生告警的集群或者系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 监控指标上报CES失败,在CES中无法看到MRS云服务的监控指标。 可能原因 权限问题请求CES接口失败。 网络问题上报CES数据失败。
本章节适用于MRS 3.3.0及以后版本。 告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Get P95耗时达到用户配置的阈值(metrics
本章节适用于MRS 3.3.0及以后版本。 告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Level0层SST
本章节适用于MRS 3.3.0及以后版本。 告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB持续出现is-writ
修改MRS集群系统用户密码 修改或重置MRS集群admin用户密码 修改MRS集群节点操作系统用户密码 修改MRS集群Kerberos管理员用户密码 修改MRS集群Manager用户密码 修改MRS集群LDAP普通用户密码 修改MRS集群LDAP管理账户密码 修改MRS集群组件运行用户密码
Tez常用配置参数 参数入口 在Manager系统中,选择“集群 > 服务 > Tez > 配置”,选择“全部配置”。 在搜索框中输入参数名称。 参数说明 表1 参数说明 配置参数 说明 缺省值 property.tez.log.dir Tez日志目录。 /var/log/Bigdata/tez/tezui
修改MRS集群节点操作系统用户密码 该任务指导用户定期修改MRS集群节点操作系统用户omm、ommdba、root的登录密码,以提升系统运维安全性。各节点操作系统用户无需设置为统一的密码。 默认集群操作系统用户密码有效期为90天,如果需要修改操作系统用户密码有效期,可以参考修改MRS操作系统用户密码有效期进行配置。
执行MRS集群节点健康检查 如果某个主机节点的运行状态不是良好,用户可以执行主机健康检查,快速确认某些基本功能是否存在异常。在日常运维中,管理员也可以执行主机健康检查,以保证主机上各角色实例的配置参数以及监控没有异常、能够长时间稳定运行。 执行集群节点健康检查(3.x及之后版本) 登录FusionInsight
Storm集群信息较多超过系统默认Thrift传输大小的设置。 原因分析 查看Storm服务状态及监控指标: MRS Manager界面操作:登录MRS Manager,依次选择“服务管理 > Storm”,查看当前Storm状态,发现状态为良好,且监控指标内容显示正确。 FusionInsight
本章节适用于MRS 3.3.0及以后版本。 告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB持续触发写限流,即作业
ALM-12004 OLdap资源异常 告警解释 系统按60秒周期检测Ldap资源,当连续6次监控到Manager中的Ldap资源异常时,系统产生此告警。 当Manager中的Ldap资源恢复,且告警处理完成时,告警恢复。 MRS 3.3.1及之后版本,告警名称从“Oldap资源异常”变成“Manager
提供HDFS文件系统的应用接口,本开发指南主要介绍如何使用Java API进行HDFS文件系统的应用开发。 C API 提供HDFS文件系统的应用接口,使用C语言开发的用户可参考C接口的描述进行应用开发。 Shell 提供shell命令完成HDFS文件系统的基本操作。 HTTP REST
0个map和10000个reduce,任务失败。 回答 ZooKeeper IO瓶颈观测手段: 通过Manager的监控页面查看单个节点上ZooKeeper请求监控,判断是否严重超出规格限制。 通过观测ZooKeeper的日志以及HBase的日志,查看是否有大量的IO Exception
Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container GC日志,如果频繁出现Full GC,需要优化GC。
0个map和10000个reduce,任务失败。 回答 ZooKeeper IO瓶颈观测手段: 通过Manager的监控页面查看单个节点上ZooKeeper请求监控,判断是否严重超出规格限制。 通过观测ZooKeeper的日志以及HBase的日志,查看是否有大量的IO Exception