检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
告警解释 系统每隔5分钟检查一次系统中关键目录或者文件权限、用户、用户组是否正常,如果不正常,则上报故障告警。 当检查到权限等均正常,则告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12041 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名
解决的问题 解决Flume后台卸载客户端后,从Flume管理的页面上无法删除该客户端实例的问题。 解决Kafka时延监控转告警(Topic数量监控、分区数量监控、请求时延监控)的问题。 解决节点ZooKeeper连接占满导致ClickHouse无法启动的问题。 解决NodeAgent进
建议用户定期修改MRS集群组件运行用户的密码,以提升系统运维安全性。 MRS 2.x及之前版本: 如果初始密码由系统随机生成,需要直接重置密码。 修改该密码会导致已经下载的用户凭证不可用,请修改该密码后重新下载认证凭据并替换旧凭据。 MRS 3.x及之后版本,组件运行用户,根据初始密码是否是系统随机生成,可分为两类:
提交作业时系统提示当前用户在Manager不存在如何处理? 问: 安全集群在提交作业时,未进行IAM用户同步,会出现“当前用户在MRS Manager不存在,请先在IAM给予该用户足够的权限,再在概览页签进行IAM用户同步”的错误提示。 答: 在提交作业之前,用户需要先在集群详情
确定”。 出现此告警时,说明当前Loader实例设置直接内存大小无法满足当前业务使用场景,建议打开实例监控界面,在页面上调出“Loader直接内存资源状况”监控图表,观察该监控图表中“Loader使用的直接内存大小”的变化趋势,根据当前直接内存使用的大小,调整“-XX:MaxDi
dc=com”和“cn=krbadmin,ou=Users,dc=hadoop,dc=com”的密码,以提升系统运维安全性。 该章节仅适用于MRS 3.1.0版本。MRS 3.1.0之后版本请参考修改OMS服务配置章节。 对系统的影响 修改密码后需要重启KrbServer服务。 修改密码后需要确认LDAP管理账户“cn=krbkdc
修改或重置MRS集群admin用户密码 “admin”是Manager的系统管理员账号,建议用户参考修改admin用户密码定期修改密码,提高系统安全性。用户在密码丢失情况可参考重置admin用户密码进行重置。 修改该密码会导致已经下载的用户凭证不可用,请修改该密码后重新下载认证凭据并替换旧凭据。
参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 导致整个系统任务执行变慢阻塞。 可能原因 可能存在较大的任务阻塞了队列执行时长。
大数据集群的处理能力通常可以通过增加集群的节点数来横向扩展,当集群规模不符合业务要求时,用户可以通过该功能进行集群节点规模的调整,进行扩容或者缩容;在缩容节点时,MRS会智能地选择负载最少或者迁移数据量最小节点,并且在缩容过程中,缩容节点不再接收新的任务,正在执行的任务继续执行,同时将该节点数据拷贝至其他节点,
修改上述用户密码将同步修改OMS LDAP管理员或用户密码。 旧版本集群升级到新版本后,LDAP管理员密码将继承旧集群的密码策略,为保证系统安全,建议集群升级后及时修改密码。 对系统的影响 MRS 2.x及之前版本,修改密码需要重启全部服务,服务在重启时无法访问。 MRS 3.1.0版本集群: 修改
云硬盘可以为MRS使用的弹性云服务器提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务,可满足不同场景的业务需求。 扩容数据盘 云监控服务(Cloud Eye) 云监控服务为用户提供立体化监控平台。使您全面了解MRS的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。 - 裸金属服务器(Bare
定”。 出现此告警时,说明当前Loader实例设置的堆内存无法满足当前数据传输所需的堆内存,建议打开实例监控界面,在页面上调出“Loader堆内存资源状况”监控图表,观察该监控图表中“Loader使用的堆内存大小”的变化趋势,根据当前堆内存使用的大小,调整“-Xmx”的值为当前堆
参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 导致整个系统任务执行变慢阻塞。 可能原因 可能存在较大的任务阻塞了队列执行时长。
产生告警的服务名称。 服务目录 产生告警的目录名称。 角色名 产生告警的角色名称。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 向ZooKeeper数据目录空间写入大量数据,导致ZooKeeper无法对外正常提供服务,导致依赖告警目录的
Hadoop shell命令 Hadoop基本shell命令,包括提交MapReduce作业,kill MapReduce作业,进行HDFS文件系统各项操作等。 MapReduce输入输出(InputFormat,OutputFormat) MapReduce框架根据用户指定的Inpu
配置Doris多租户 Doris多租户介绍 管理Doris租户 Doris多租户监控告警介绍 父主题: Doris企业级能力增强
该任务指导用户定期修改MRS集群Kerberos或OMS Kerberos(MRS 3.x及之后版本)管理员“kadmin”的密码,以提升系统运维安全性。 修改该密码会导致已经下载的用户凭证不可用,请修改该密码后重新下载认证凭据并替换旧凭据。 前提条件 MRS 2.x及之前版本,已在Master1节点准备客户端。
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 RPC时长越长表示性能负载越高,网络请求处理越慢,可能会导致服务阻塞。
使用KafkaManager KafkaManager介绍 访问KafkaManager的WebUI 管理Kafka集群 Kafka集群监控管理
安全 责任共担 资产识别与管理 身份认证与访问控制 数据保护技术 审计与日志 服务韧性 监控安全风险 更新管理 安全加固 MRS集群保留JDK说明