检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
置阈值 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 系统配置冷热分离功能后,每隔5分钟检测一次当前系统冷热分离策略中配置的本地磁盘的剩余空间,如果低于冷热分离策略中配置的move_factor阈值,系统产生告警。 当本地磁盘剩余空间高于move_factor阈值时,告警自动消除。
ALM-12200 密码即将过期 告警解释 系统每天凌晨1点开始检测当前系统中用户密码是否即将过期,如果用户密码即将过期(默认小于5天)则发送告警。 当系统中用户密码距离过期的时间大于等于5天(默认),告警恢复。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别
配置跨Manager集群互信后,两个系统中只要存在同名用户,且对端系统的同名用户拥有访问自身系统中某个资源的对应权限,则可以使用当前系统用户访问远程资源。 直接互信 系统在配置互信的两个集群分别保存对端系统的互信票据,通过互信票据访问对端系统。 父主题: 集群互信管理
1.0.8 修复问题列表: MRS Manager 解决委托访问OBS,ECS接口限流问题 MRS Manager支持多人登录 支持全链路监控 MRS大数据组件 carbon2.0升级 解决HBASE-18484问题 MRS 2.1.0.7 修复问题列表: MRS Manager
resourcemanager.scheduler.monitor.policies”中的策略,启用新的scheduler监控。设置为“true”表示启用监控,并根据scheduler的信息,启动抢占的功能。设置为“false”表示不启用。 false yarn.resourcemanager
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 新数据写入失败,任务中断。 可能原因 集群磁盘容量已满。
zookeeper/hadoop.<系统域名> 系统随机生成 ZooKeeper系统启动用户。 zkcli/hadoop.<系统域名> 系统随机生成 登录Zookeeper服务器用户。 oozie 系统随机生成 Oozie系统启动与Kerberos认证用户。 kafka/hadoop.<系统域名> 系统随机生成
补丁号:MRS 1.9.0.8 发布时间:2021-02-20 修复问题列表: MRS大数据组件 增加调用ECS getSecuritykey接口异常的监控 优化临时AK/Sk流程 解决ResourceManager内存泄露问题 MRS 1.9.0.7 修复问题列表: MRS Manager 解决扩容刷新队列导致队列丢失问题
ALM-12035 恢复任务失败后数据状态未知 ALM-12037 NTP服务器异常 ALM-12038 监控指标转储失败 ALM-12039 OMS数据库主备不同步 ALM-12040 系统熵值不足 ALM-12041 关键文件权限异常 ALM-12042 关键文件配置异常 ALM-12045
产生告警的主机名。 对系统的影响 如果将DataNode数据目录挂载在根目录等系统关键目录,长时间运行后会将根目录写满,导致系统故障。 不合理的DataNode数据目录配置,会造成HDFS的性能下降。 可能原因 DataNode数据目录创建失败。 DataNode数据目录与系统关键目录(“/”或“/boot”)使用同一磁盘。
恢复Manager数据(MRS 3.x及之后版本) 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对FusionInsight Manager系统进行重大数据调整等操作后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,需要对Manager进行恢复数据操作。 管理员可以通过FusionInsight
500 轮询监控目录下新文件时的时延。单位:毫秒。 recursiveDirectorySearch false 是否监控配置的目录下子目录中的新文件。 consumeOrder oldest 监控目录下文件的消耗次序。如果配置为oldest或者youngest,会根据监控目录下文件
为JournalNode的节点通信。当Active对文件系统元数据进行修改时,会将其修改日志保存到大多数的JournalNode节点中,例如有3个JournalNode,则日志会保存在至少2个节点中。Standby节点监控JournalNodes的变化,并同步来自Active节点
ClickHouse获取临时委托凭据失败 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 系统配置冷热分离功能和委托后,每隔1分钟检测一次临时委托凭据的更新状态,当连续3次检测到获取临时委托凭据失败时,系统产生告警。 当检测到系统获取临时委托凭据成功时,告警自动消除。 告警属性 告警ID 告警级别 是否可自动清除
为什么存储小文件过程中,缓存中的数据会丢失 问题 在存储小文件过程中,系统断电,缓存中的数据丢失。 回答 由于断电,当写操作完成之后,缓存中的block不会立即被写入磁盘,如果要同步地将缓存的block写入磁盘,用户需要将“客户端安装路径/HDFS/hadoop/etc/hadoop/hdfs-site
为什么存储小文件过程中,缓存中的数据会丢失 问题 在存储小文件过程中,系统断电,缓存中的数据丢失。 回答 由于断电,当写操作完成之后,缓存中的block不会立即被写入磁盘,如果要同步地将缓存的block写入磁盘,用户需要将“客户端安装路径/HDFS/hadoop/etc/hadoop/hdfs-site
该工具应该由启动HBase进程的系统用户运行。 如果处于安全模式,请确保备集群的HBase系统用户具有主集群HDFS的读取权限。因为备集群将更新HBase系统Zookeeper节点和HDFS文件。 主集群HBase故障后,主集群的Zookeeper、文件系统和网络依然可用。 场景介绍
操作场景 为了确保Flink集群中的元数据安全,或者系统管理员需要对Flink进行重大操作(如升级或迁移等)时,需要对Flink集群的元数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight Ma
在用户意外修改、删除或需要找回数据时,系统管理员需要对Flink进行重大操作(如升级或迁移等)后,系统数据出现异常或未达到预期结果,导致Flink组件全部故障无法使用,或者迁移数据到新集群的场景中,需要对Flink元数据进行恢复数据操作。 系统管理员可以通过FusionInsight
恢复数据。 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复数据,建议手动备份最新管理数据后,再执行恢复数据操作。否则会丢失从备份时刻到恢复时刻之间的HBase数据。 对系统的影响 恢复过程的数据还原阶段,系统会把待恢复的HBase表禁用,此时