检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务失败:主机文件句柄使用率超过阈值时,系统应用无法打开文件、网络
1及之后版本。 告警解释 系统每隔1分钟检测一次表的状态,当检测到有表处于只读状态,系统产生告警。当没有表处于只读状态,告警自动消除。 告警属性 告警ID 告警级别 是否可自动清除 45447 次要 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。
手动恢复Doris数据 Doris支持将当前数据以文件的形式,通过Broker备份到远端存储系统中。再通过恢复命令,从远端存储系统中将数据恢复到任意Doris集群中。可实现将Doris数据定期进行快照备份及数据迁移操作。 该章节操作仅适用于MRS 3.3.1之前版本。 备份恢复相
Doris集群与OBS网络互通,相关操作具体请参考初始化配置。 创建OBS并行文件系统并获取AK/SK和DomainID 创建OBS并行文件系统。 登录OBS管理控制台。 选择“并行文件系统 > 创建并行文件系统”。 填写文件系统名称,例如“doris-obs”。 企业项目需要与MRS集群保持一致,其他参数请根据需要填写。
删除MRS集群用户 根据业务需要,管理员应在Manager删除不再使用的系统用户。 用户删除后,已经发放的TGT在24小时内仍然有效,用户可以使用该TGT继续进行安全认证并访问系统。 如新建用户与已删除用户同名,则会继承已删除用户的拥有的所有Owner权限。建议根据实际业务需求决
中提交一个HadoopStream作业。 前提条件 用户已经将作业所需的程序包和数据文件上传至OBS或HDFS文件系统中。 如果作业程序需要读取以及分析OBS文件系统中的数据,需要先配置MRS集群的存算分离,请参考配置MRS集群存算分离。 提交HadoopStream作业 登录MRS管理控制台。
ALM-24000 Flume服务不可用 告警解释 告警模块按180秒周期检测Flume服务状态,当检测到Flume服务异常时,系统产生此告警。 当系统检测到Flume服务恢复正常,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24000 紧急 是 告警参数
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 SlapdServer实例CPU使用率过
正在等待的查询总数超过阈值 告警解释 以60s为周期检测该Impalad节点正在等待的查询总数,当检测到的数量超过自定义阈值(默认150)时,系统产生此告警。 当系统检测到的数量减少到阈值以下时,告警将自动解除。 告警属性 告警ID 告警级别 是否自动清除 29012 重要 是 告警参数 类别
3.1.5版本:系统每60秒周期性检测Impalad的Hive Server2 HTTP端口(28000)是否响应curl请求,当返回结果不正确(连续2次检测超过20秒)时产生该告警,当curl请求在20秒内正确响应时,告警恢复。 除MRS 3.1.5的其他版本:系统每60秒周期性
ALM-29104 Tserver进程内存占用率超过阈值 告警解释 系统每60秒周期性检测Kudu Tserver进程内存占用率,当检测到Tserver进程占用率超过阈值,此时产生该告警。 Tserver进程内存占用率恢正常后,系统认为Kudu实例服务恢复,告警清除。 告警属性 告警ID 告警级别
本章节仅适用于MRS 3.1.5及之后版本。 告警解释 系统每60秒周期性检测TokenServer服务堆内存使用状态,当连续10次检测到TokenServer实例堆内存使用率超出阈值(最大内存的95%)时产生该告警。 当系统检测到堆内存使用率小于阈值时,告警恢复。 告警属性 告警ID
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Doris服务读写性能变慢。 可能原因 业务并发量较大,导致排队任务较多。
基于角色的权限控制 MRS集群通过采用RBAC(role-based access control,基于角色的权限控制)方式对大数据系统进行权限管理,将系统中各组件零散的权限管理功能集中呈现和管理,对普通用户屏蔽掉了内部的权限管理细节,对管理员简化了权限管理的操作方法,提升权限管理的易用性和用户体验。
HostName 产生告警的主机名。 对系统的影响 监控指标转储失败会影响上层管理系统无法获取到MRS Manager系统的监控指标。 可能原因 无法连接服务器。 无法访问服务器上保存路径。 上传监控指标文件失败。 处理步骤 联系运维人员查看MRS Manager系统与服务器网络连接是否正常。
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 服务审计日志在系统本地最多保存7个压缩文件,如果该故障持续存在,本地服务审计日志可能会丢失。 管理审计日志每达到10万条会以文件形式转储到本地,
ALM-38001 Kafka磁盘容量不足(2.x及以前版本) 告警解释 系统按60秒周期检测Kafka磁盘空间使用率,并把实际磁盘使用率和阈值相比较。磁盘使用率默认提供一个阈值范围。当检测到磁盘使用率高于阈值时产生该告警。 用户可通过“系统设置 > 阈值配置”修改阈值。 当Kafka磁盘使用率小于或等于阈值时,告警恢复。
参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 网口名 产生告警的网口名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务延迟:主机网络读吞吐率
AZ容灾开启后,系统每隔5分钟检查一次当前系统上AZ的健康状态,当检测到AZ健康状态为亚健康或者不健康时产生告警。AZ健康状态恢复健康时,告警清除。 告警属性 告警ID 告警级别 是否自动清除 12101 紧急 是 告警参数 告警参数 参数含义 来源 产生告警的集群或系统名称。 服务名
产生告警的NameService名称。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDFS文件数过多可能造成HDFS系统响应慢或磁盘被占满。 可能原因 HDFS文件数超过阈值。 处理步骤 检查系统中的文件数量。 在FusionInsight Mana