检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的“HBase”。 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告
19026 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 HBase存在损坏的WAL文件,如果位于该文件上的数据未落盘,会导致这部分数据丢失,业务查询数据时出现部分数据不一致。
在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的“Kafka”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 确认告警已无影响,可手工清除告警。
更改NodeManager的存储目录 操作场景 Yarn NodeManager定义的存储目录不正确或Yarn的存储规划变化时,MRS集群管理员需要在Manager中修改NodeManager的存储目录,以保证Yarn正常工作。NodeManager的存储目录包含本地存放目录“yarn
afka的监控指标“未完全同步的Partition总数”进行查看。 Kafka滚动重启过程中,建议设置客户端Producer的配置参数“acks”的值为“-1”(配置方式和其他Producer配置参数的配置方式一致),否则在逐个重启Broker实例的瞬间有丢失少量数据的风险。设置
资源容量 队列的资源容量(百分比)。当系统非常繁忙时,应保证每个队列的容量得到满足,而如果每个队列应用程序较少,可将剩余资源共享给其他队列。注意,所有队列的容量之和应小于100。 20 最大资源容量 队列的资源使用上限(百分比)。由于存在资源共享,因此一个队列使用的资源量可能超过
是否开启Yarn WebUI的任务列表后台分页功能。 true yarn.resourcemanager.webapp.pagination.threshold 开启Yarn WebUI的任务列表后台分页功能后,每个分页显示的最大作业数量。 5000 显示更多的历史作业,会影响性能,增加打开Yarn
在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选“Controller”,单击“确定”。 单击右上角的设置日志收集的时间范围,一般为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
配置互信MRS集群的用户权限 配置完跨Manager集群互信后,需要在互信的系统上设置访问用户的权限,这样指定的用户才能在互信系统上进行对应的业务操作。 前提条件 已完成跨集群互信配置,然后刷新两个集群的客户端。 配置互信集群的用户权限(MRS 3.x及之后版本) 登录本端系统的FusionInsight
ALM-14028 待补齐的块数超过阈值 告警解释 系统每30秒周期性检测待补齐的块数量,并把待补齐的块数量和阈值相比较。需补齐的块数量指标默认提供一个阈值范围。当检测到丢失的块数量超出阈值范围时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群名称 > HDFS
参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 NameService名 产生告警的NameService名称。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 单副本的数据在节点故障时容易
产生告警的集群名称。 服务名 产生告警的服务名称。 应用名 产生告警的应用名称。 角色名 产生告警的角色名称。 任务名 产生告警的作业名称。 对系统的影响 Flink作业RocksDB的MemTable大小持续超过阈值,主要反应的是Flink作业的CheckPoint的性能,对FlinkServer本身没有影响。
/setNorthBound.sh -t 信息类型 -i 远程服务器IP -p 服务器使用的SFTP或FTP端口 -u 用户名 -d 保存信息的路径 -c 时间间隔(分钟) -m 每个保存文件的信息记录数 -s 备份启停开关 -e 指定的协议 例如: ./setNorthBound.sh -t alarm
Flink对接应用运维管理(AOM) 本章节适用于MRS 3.5.0及之后的版本。 Flink对接AOM服务场景介绍 应用运维管理(AOM)服务是一个可观测平台,基于指标、链路、日志、事件全景数据监控,提供一体化监控能力。Flink可以通过AOM服务的Prometheus实例将监
来源 产生告警的集群名称。 服务名 产生告警的服务名称。 应用名 产生告警的应用名称。 角色名 产生告警的角色名称。 任务名 产生告警的作业名称。 对系统的影响 Flink作业RocksDB的Pending Compaction持续超过阈值,主要反应的是Flink作业的CheckP
参数含义 定位信息 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名称。 附加信息 db 存在较大Tablet的数据库名称。 table 存在较大Tablet的表名称。 对系统的影响 Tablet较大时可能导致D
告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 Broker的分区数超出阈值,过多的分区会加剧Broker的负载,使得内存、磁盘IO、CPU等资源出现瓶颈,最终导致请求响应变慢,甚至超时。
种类型字符中的4种。支持的特殊字符为~`!?,.;-_'(){}[]/<>@#$%^&*+|\=。 不可和用户名相同或用户名的倒序字符相同。 不可以为常见的易破解密码,例如Admin@12345。 不可与最近N次使用过的密码相同,N为密码策略配置中“重复使用规则”的值。此策略只影响“人机”用户。
是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 ZooKeeper无法为上层组件提供协调服务,依赖ZooKeeper的组件(例如Yarn、Flink等)无法正常运行。
在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Doris”。 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告