华为云用户手册

  • 操作步骤 查看服务的配置。 在集群详情页,单击“组件管理”。 图2 组件管理 单击服务列表中指定的服务名称。 单击“服务配置”。 将页面右侧“基础配置”切换为“全部配置”,界面上将显示该服务的全部配置参数导航树,导航树从上到下的根节点分别为服务名称和角色名称。 图3 全部配置 在导航树选择指定的参数,修改参数值。支持在“搜索”输入参数名直接搜索并显示结果。 在服务节点下的参数属于服务配置参数,在角色节点下的参数是角色配置参数。 在“——请选择——”选项中选择“非默认”,界面上显示参数值为非默认值的参数( MRS 3.x之前版本存在此选项)。 查看角色实例的配置。 在集群详情页,单击“组件管理”。 图4 组件管理(以MRS 1.9.2版本为例) 单击服务列表中指定的服务名称。 单击“实例”页签。 单击角色实例列表中指定的角色实例名称。 单击“实例配置”。 将页面右侧“基础配置”切换为“全部配置”,界面上将显示该角色实例的全部配置参数导航树。 在导航树选择指定的参数,修改参数值。支持在“搜索”输入参数名直接搜索并显示结果。 在“——请选择——”选项中选择“非默认”,界面上显示参数值为非默认值的参数(MRS 3.x之前版本存在此选项)。
  • 操作场景 该任务指导用户在日常运维中完成集群进行健康检查的工作,以保证集群各项参数、配置以及监控没有异常、能够长时间稳定运行。 系统健康检查的范围包含Manager、服务级别和主机级别的健康检查: Manager关注集群统一管理平台是否提供管理功能。 服务级别关注组件是否能够提供正常的服务。 主机级别关注主机的一系列指标是否正常。 系统健康检查可以包含三方面检查项:各检查对象的“健康状态”、相关的告警和自定义的监控指标,检查结果并不能等同于界面上显示的“健康状态”。
  • 操作步骤 在MRS Manager,单击“告警管理”,在告警列表查看告警信息。 告警列表每页默认显示最近的十条告警。 默认以“产生时间”列按降序排列,单击“告警ID”、“告警名称”、“告警级别”、“产生时间”、“定位信息”或“操作”可修改排列方式。 支持在“告警级别”筛选相同级别的全部告警。结果包含已清除和未清除的告警。 分别单击、、或可以快速筛选级别为“致命”、“严重”、“一般”或“警告”的告警。 单击“高级搜索”显示告警搜索区域,设置查询条件后,单击“搜索”,查看指定的告警信息。单击“重置”清除输入的搜索条件。 “开始时间”和“结束时间”表示时间范围的开始时间和结束时间,可以搜索此时间段内产生的告警。 查看“告警参考”章节告警帮助,按照帮助指导处理告警。如果某些场景中告警由于MRS依赖的其他云服务产生,可能需要联系对应云服务运维人员处理。 处理完告警后,若需手动清除,单击“清除告警”,手动清除告警。 如果有多个告警已完成处理,可选中一个或多个待清除的告警,单击“清除告警”,批量清除告警。每次最多批量清除300条告警。
  • 操作场景 用户可以在MRS Manager查看、清除告警。 一般情况下,告警处理后,系统自动清除该条告警记录。当告警不具备自动清除功能且用户已确认该告警对系统无影响时,可手动清除告警。 在MRS Manager界面可查看最近十万条告警(包括未清除的、手动清除的和自动清除的告警)。如果已清除告警超过十万条达到十一万条,系统自动将最早的一万条已清除告警转存,转存路径为主管理节点“${BIGDATA_HOME}/ OMS V100R001C00x8664/workspace/data”。第一次转存告警时自动生成目录。 用户可以选择页面自动刷新间隔的设置,也可以单击马上刷新。 支持三种参数值: “每30秒刷新一次”:刷新间隔30秒。 “每60秒刷新一次”:刷新间隔60秒。 “停止刷新”:停止刷新。
  • 操作步骤 查看服务监控指标的资源分布 在MRS Manager,单击“服务管理”。 单击服务列表中指定的服务名称。 单击“资源贡献排名”。 “指标”中选择服务的关键指标,MRS Manager将显示过去1小时内指标的资源分布情况。 查看主机监控指标的资源分布 单击“主机管理”。 单击主机列表中指定的主机名称。 单击“资源贡献排名”。 “指标”中选择主机的关键指标,MRS Manager将显示过去1小时内指标的资源分布情况。 配置资源分布 在MRS Manager,单击“系统设置”。 在“配置”区域“监控和告警配置”下,单击“资源贡献排名配置”。 修改资源分布的显示数量。 “TOP数量”填写最大值的显示数量。 “BOTTOM数量”填写最小值的显示数量。 最大值与最小值的资源分布显示数量总和不能大于5。 单击“确定”保存设置。 界面右上角提示“保存TOP数量和BOTTOM数量成功。”。
  • 操作步骤 在MRS Manager,单击“系统设置”。 在“配置”区域“监控和告警配置”下,单击“SNMP配置”。 “SNMP服务”的开关默认为关闭,单击启用SNMP服务。 设置表1所示的对接参数。 表1 对接参数 参数名称 参数说明 版本 SNMP协议版本号,取值范围: v2c:低版本,安全性较低 v3:高版本,安全性比v2c高 推荐使用v3版本。 本地端口 本地端口,默认值“20000”,取值范围“1025”到“65535”。 读团体名 该参数仅在设置“版本”为v2c时存在,用于设置只读团体名。 写团体名 该参数仅在设置“版本”为v2c时存在,用于设置可写团体名。 安全用户名 该参数仅在设置“版本”为v3时存在,用于设置协议安全用户名。 认证协议 该参数仅在设置“版本”为v3时存在,用于设置认证协议,推荐选择SHA。 认证密码 该参数仅在设置“版本”为v3时存在,用于设置认证密钥。 确认认证密码 该参数仅在设置“版本”为v3时存在,用于确认认证密钥。 加密协议 该参数仅在设置“版本”为v3时存在,用于设置加密协议,推荐选择AES256。 加密密码 该参数仅在设置“版本”为v3时存在,用于设置加密密钥。 确认加密密码 该参数仅在设置“版本”为v3时存在,用于确认加密密钥。 “认证密码”和“加密密码”密码长度为8到16位,至少需要包含大写字母、小写字母、数字、特殊字符中的3种类型字符。两个密码不能相同。两个密码不可和安全用户名或安全用户名的逆序字符相同。 使用SNMP协议从安全方面考虑,需要定期修改“认证密码”和“加密密码”密码。 使用SNMP v3版本时,安全用户在5分钟之内连续鉴权失败5次将被锁定,5分钟后自动解锁。 单击“Trap目标”下的“添加Trap目标”,在弹出的“添加Trap目标”对话框中填写以下参数: 目标标识:Trap目标标识,一般指接收Trap的网管或主机标识。长度限制1~255字节,一般由字母或数字组成。 目标IP:目标IP。可使用A、B、C类IP地址,要求可与管理节点的管理平面IP地址互通。 目标端口:接收Trap的端口,要求与对端保持一致,取值范围“0”~“65535”。 Trap团体名:该参数仅在设置Version为v2c时存在,用于设置主动上报团体名。 单击“确定”,设置完成,退出“添加Trap目标”对话框。 单击“确定”,设置完成。
  • 对象管理简介 MRS集群包含了各类不同的基本对象,不同对象的描述介绍如表1所示: 表1 MRS基本对象概览 对象 描述 举例 服务 可以完成具体业务的一类功能集合。 例如KrbServer服务和LdapServer服务。 服务实例 服务的具体实例,一般情况下可使用服务表示。 例如KrbServer服务。 服务角色 组成一个完整服务的一类功能实体,一般情况下可使用角色表示。 例如KrbServer由KerberosAdmin角色和KerberosServer角色组成。 角色实例 服务角色在主机节点上运行的具体实例。 例如运行在Host2上的KerberosAdmin,运行在Host3上的KerberosServer。 主机 一个弹性云服务器,可以运行Linux系统。 例如Host1~Host5。 机架 一组包含使用相同交换机的多个主机集合的物理实体。 例如Rack1,包含Host1~Host5。 集群 由多台主机组成的可以提供多种服务的逻辑实体。 例如名为Cluster1的集群由(Host1~Host5)5个主机组成,提供了KrbServer和LdapServer等服务。 父主题: 对象管理
  • 操作步骤 在MRS Manager,单击“服务管理”。 在指定服务所在行,单击“启动”、“停止”和“重启”执行启动、停止和重启操作。 服务之间存在依赖关系。对某服务执行启动、停止和重启操作时,与该服务存在依赖关系的服务将受到影响。 具体影响如下: 启动某服务,该服务依赖的下层服务需先启动,服务功能才可生效。 停止某服务,依赖该服务的上层服务将无法提供功能。 重启某服务,依赖该服务且启动的上层服务需重启后才可生效。
  • 操作步骤 查看服务的配置。 在MRS Manager,单击“服务管理”。 单击服务列表中指定的服务名称。 单击“服务配置”。 在“参数类别”选择“全部配置”,界面上将显示该服务的全部配置参数导航树,导航树从上到下的根节点分别为服务名称和角色名称。 在导航树选择指定的参数,修改参数值。支持在“搜索”输入参数名直接搜索并显示结果。 在服务节点下的参数属于服务配置参数,在角色节点下的参数是角色配置参数。 在“非默认”选项(该选项仅在MRS 3.x之前版本有效)中选择“非默认”,界面上显示参数值为非默认值的参数。 查看角色实例的配置。 在MRS Manager,单击“服务管理”。 单击服务列表中指定的服务名称。 单击“实例”页签。 单击角色实例列表中指定的角色实例名称。 单击“实例配置”。 在“参数类别”选择“全部配置”,界面上将显示该角色实例的全部配置参数导航树。 在导航树选择指定的参数,修改参数值。支持在“搜索”输入参数名直接搜索并显示结果。 在“非默认”选项(该选项仅在MRS 3.x之前版本有效)中选择“非默认”,界面上显示参数值为非默认值的参数。
  • 操作步骤 在MRS Manager界面,单击“服务管理”。 单击服务列表中指定的服务名称。 单击“服务配置”。 在“参数类别”选择“全部配置”。 图1 服务全部配置 在左侧导航栏选择“自定义”,Manager将显示当前组件的自定义参数。 “参数文件”显示保存用户新添加的自定义参数的配置文件。每个配置文件中可能支持相同名称的开源参数,设置不同参数值后生效结果由组件加载配置文件的顺序决定。自定义参数支持服务级别与角色级别,请根据业务实际需要选择。不支持单个角色实例添加自定义参数。 图2 服务自定义配置 根据配置文件与参数作用,在对应参数项所在行“名称”列输入组件支持的参数名,在“值”列输入此参数的参数值。 支持单击和增加或删除一条自定义参数。第一次单击添加自定义参数后才支持删除操作。 修改某个参数的值后需要取消修改,可以单击恢复。 单击“保存配置”,勾选“重新启动受影响的服务或实例。”并单击“确定”重启服务。 界面提示“操作成功。”,单击“完成”,服务成功启动。
  • 管理角色实例监控 在MRS Manager,单击“服务管理”,在服务列表中单击服务指定名称。 单击“实例”,查看角色状态。 角色实例列表中包含实例信息的角色、主机名、管理IP、业务IP、机架、操作状态、健康状态及配置状态。 角色实例的状态如表4所示。 表4 角色实例状态 状态 描述 已启动 角色实例已启动。 已停止 角色实例已停止。 启动失败 用户启动操作失败。 停止失败 用户停止操作失败。 退服中 角色实例正在退服。 已退服 角色实例已退服。 入服中 角色实例正在入服。 未知 后台系统重启后,角色实例的初始状态。 角色实例的健康状态如表5所示。 表5 角色实例健康状态 状态 描述 良好 该角色实例正常运行。 恢复中 后台系统正在尝试自动启动角色实例。 故障 该角色实例运行异常,如PID不存在,无法访问端口。 未知 角色实例所在主机与后台系统未连接。 亚健康 该角色实例部分正常运行 角色实例的配置状态如表6所示。 表6 角色实例配置状态 状态 描述 已同步 系统中最新的配置信息已生效。 过期 参数修改后,最新的配置未生效。需重启相应服务生效最新配置信息。 失败 参数配置过程中出现通信或读写异常。尝试使用“同步配置”恢复。 同步中 参数配置进行中。 未知 无法获取当前配置状态。 默认以“角色”列按升序排列,单击角色、主机名、管理IP、业务IP、机架、操作状态、健康状态或配置状态可修改排列方式。 支持在“角色”筛选相同角色的全部实例。 单击“高级搜索”,在角色搜索区域中设置搜索条件,单击“搜索”,查看指定的角色信息。单击“重置”清除输入的搜索条件。支持模糊搜索条件的部分字符。 单击列表中指定角色实例名称,查看角色实例状态及指标信息。 定制、导出监控图表。 针对MRS 3.x之前版本: 在“图表”区域框中,单击“定制”自定义服务监控指标。 在“时间区间”选择查询时间,单击“查看”显示该时间段内的监控数据。 单击“导出”,导出当前查看的指标数据。
  • 管理主机监控 在MRS Manager,单击“主机管理”,看所有主机状态。 主机列表中包括主机名称、管理IP、业务IP、机架、网络速度、操作状态、健康状态、磁盘使用率、内存使用率、CPU使用率。 主机操作状态如表7所示。 表7 主机操作状态 状态 描述 正常 主机及主机上的服务角色正常运行。 已隔离 主机被用户隔离,主机上的服务角色停止运行。 主机健康状态描述如表8所示。 表8 主机健康状态 状态 描述 良好 主机心跳检测正常。 故障 主机心跳超时未上报。 未知 执行添加操作时,主机的初始状态。 默认以“主机名称”列按升序排列,单击主机名称、管理IP、业务IP、机架、网络速度、操作状态、健康状态、磁盘使用率、内存使用率或CPU使用率可修改排列方式。 单击“高级搜索”,在搜索区域中,设置查询条件,单击“搜索”,查看指定的主机。单击“重置”清除输入的搜索条件。支持模糊搜索条件的部分字符。 单击列表中指定的主机名称,查看单个主机状态及指标。 定制、导出监控图表。 针对MRS 3.x之前版本: 在“图表”区域框中,单击“定制”自定义服务监控指标。 在“时间区间”选择查询时间,单击“查看”显示该时间段内的监控数据。 单击“导出”,导出当前查看的指标数据。
  • 管理服务监控 在MRS Manager,单击“服务管理”。 服务列表中标题包含“服务”、“操作状态”、“健康状态”、“配置状态”、“角色数”和“操作”。 服务操作状态描述如表1所示。 表1 服务操作状态 状态 描述 已启动 服务已启动。 已停止 服务已停止。 启动失败 用户启动操作失败。 停止失败 用户停止操作失败。 未知 后台系统重启后,服务的初始状态。 服务健康状态如表2所示。 表2 服务健康状态 状态 描述 良好 该服务中所有角色实例正常运行。 故障 至少一个角色实例运行状态为“故障”或被依赖的服务状态不正常。 未知 该服务中所有角色实例状态为“未知”。 正在恢复 后台系统正在尝试自动启动服务。 亚健康 该服务所依赖的服务状态不正常,异常服务的相关接口无法被外部调用。 服务配置状态如表3所示。 表3 服务配置状态 状态 描述 已同步 系统中最新的配置信息已生效。 过期 参数修改后,最新的配置未生效。需重启相应服务生效最新配置信息。 失败 参数配置过程中出现通信或读写异常。尝试使用“同步配置”恢复。 同步中 参数配置进行中。 未知 无法获取当前配置状态。 默认以“服务”列按升序排列,单击服务、操作状态、健康状态或配置状态可修改排列方式。 单击列表中指定服务名称,查看服务状态及指标信息。 定制、导出监控图表。 针对MRS 3.x之前版本: 在“图表”区域框中,单击“定制”自定义服务监控指标。 在“时间区间”选择查询时间,单击“查看”显示该时间段内的监控数据。 单击“导出”,导出当前查看的指标数据。
  • 操作场景 某个Core或Task节点出现问题时,可能导致整个集群状态显示为“异常”。MRS集群支持将数据存储在不同Core节点,用户可以在MRS Manager指定角色实例退服,使退服的角色实例不再提供服务。在排除故障后,可以将已退服的角色实例入服。 支持退服、入服的角色实例包括: HDFS的DataNode角色实例 Yarn的NodeManager角色实例 HBase的RegionServer角色实例 Kafka的Broker角色实例 限制: 当DataNode数量少于或等于HDFS的副本数时,不能执行退服操作。例如HDFS副本数为3时,则系统中少于4个DataNode,将无法执行退服,Manager在执行退服操作时会等待30分钟后报错并退出执行。 Kafka Broker数量少于或等于副本数时,不能执行退服。例如Kafka副本数为2时,则系统中少于3个节点,将无法执行退服,Manager执行退服操作时会失败并退出执行。 已经退服的角色实例,必须执行入服操作启动该实例,才能重新使用。
  • 操作步骤 使用omm用户登录到主OMS节点,备份$NODE_AGENT_HOME/bin/nodeagent_ctl.sh文件。 cp $NODE_AGENT_HOME/bin/nodeagent_ctl.sh /tmp 执行命令vi $NODE_AGENT_HOME/bin/nodeagent_ctl.sh,找到“JVM_ARGS=”所在行,在该行的下一行添加一行新内容: JVM_ARGS="$JVM_ARGS -Dfastjson.parser.safeMode=true" 在集群所有节点执行1和2。 可以手动通过omm用户将修改好的“$NODE_AGENT_HOME/bin/nodeagent_ctl.sh”文件覆盖到所有节点。 使用omm用户在主OMS节点执行如下命令重启集群所有节点NodeAgent。 $CONTROLLER_HOME/inst/restartAllNoes.sh 登录集群后台节点查看进程: ps -ef |grep NodeAgent 如果包含参数“-Dfastjson.parser.safeMode=true”,说明漏洞问题已经规避,如下图所示:
  • 操作步骤 修改角色实例参数。 单击“服务管理”。 单击服务列表中指定的服务名称。 单击“实例”页签。 单击角色实例列表中指定的角色实例名称。 单击“实例配置”页签。 在“参数类别”选择“全部配置”,界面上将显示该角色实例的全部配置参数导航树。 在导航树选择指定的参数,修改参数值。支持在“搜索”输入参数名直接搜索并显示结果。 修改某个参数的值后需要取消修改,可以单击恢复。 单击“保存配置”,勾选“重启角色实例”并单击“确定”,重启角色实例。 界面提示“操作成功。”,单击“完成”,角色实例成功启动。 导出角色实例配置参数。 单击“服务管理”。 选中某项服务。 选中某角色或单击“实例”。 选择指定主机上某角色实例。 单击“实例配置”。 单击“导出实例配置”,导出指定角色实例配置数据并选择一个位置保存。 导入角色实例配置参数。 单击“服务管理”。 选中某项服务。 选中某角色或单击“实例”。 选择指定主机上某角色实例。 单击“实例配置”。 单击“导入实例配置”,导入指定角色实例配置数据。 单击“保存配置”,勾选“重启角色实例。”并单击“确定”。 界面提示“操作成功。”,单击“完成”,角色实例成功启动。
  • 操作场景 该任务指导用户在日常运维中完成集群进行健康检查的工作,以保证集群各项参数、配置以及监控没有异常、能够长时间稳定运行。 系统健康检查的范围包含Manager、服务级别和主机级别的健康检查: Manager关注集群统一管理平台是否提供管理功能。 服务级别关注组件是否能够提供正常的服务。 主机级别关注主机的一系列指标是否正常。 系统健康检查可以包含三方面检查项:各检查对象的“健康状态”、相关的告警和自定义的监控指标,检查结果并不能等同于界面上显示的“健康状态”。
  • 操作场景 在不同时间、不同使用场景下,MRS集群、服务和主机产生的健康检查报告结果不完全相同。如果需要保存更多的报告用于比较时,可以在MRS Manager修改健康检查报告保存的文件数。 健康检查报告保存的文件数不区分集群、服务或主机类型的健康检查报告。健康检查完成后,报告文件默认保存在主管理节点的“$BIGDATA_DATA_HOME/Manager/healthcheck”,备管理节点将自动同步。
  • 操作场景 为了满足对健康检查结果的进一步具体分析,您可以在MRS Manager中查看以及导出健康检查的结果。 系统健康检查的范围包含Manager、服务级别和主机级别的健康检查: Manager关注集群统一管理平台是否提供管理功能。 服务级别关注组件是否能够提供正常的服务。 主机级别关注主机的一系列指标是否正常。 系统健康检查可以包含三方面检查项:各检查对象的“健康状态”、相关的告警和自定义的监控指标,检查结果并不能等同于界面上显示的“健康状态”。
  • 服务健康状态 指标项名称:服务状态 指标项含义:检查HDFS服务状态是否正常。如果节点有故障,则认为不健康。 恢复指导:如果该指标项异常,建议检查KrbServer、LdapServer、ZooKeeper三个服务的状态是否为异常并处理。然后再检查是否是HDFS SafeMode ON导致的写文件失败,并使用客户端,确认是否无法在HDFS中写入数据,排查HDFS写数据失败的原因。最后参见告警进行处理。
  • SlapdServer服务可用性检查 指标项名称:SlapdServer服务可用性 指标项含义:系统对SlapdServer服务状态进行检查。如果检查结果不正常,则SlapdServer服务不可用。 恢复指导:如果该指标项检查结果不正常,原因可能是SlapdServer服务所在节点故障或者SlapdServer进程故障。操作人员进行SlapdServer服务恢复时,请尝试如下操作: 检查SlapdServer服务所在节点是否故障。详细操作请参见告警ALM-12006处理。 检查SlapdServer进程是否正常。详细操作请参见告警ALM-12007处理。
  • KerberosServer服务可用性检查 指标项名称: KerberosServer服务可用性 指标项含义:系统对KerberosServer服务状态进行检查,如果检查结果不正常,则KerberosServer服务不可用。 恢复指导:如果该指标项检查结果不正常,原因可能是KerberosServer服务所在节点故障,或者SlapdServer服务不可用。操作人员进行KerberosServer服务恢复时,请尝试如下操作: 检查KerberosServer服务所在节点是否故障。 检查SlapdServer服务是否不可用。
  • KerberosAdmin服务可用性检查 指标项名称:KerberosAdmin服务可用性 指标项含义:系统对KerberosAdmin服务状态进行检查,如果检查结果不正常,则KerberosAdmin服务不可用。 恢复指导:如果该指标项检查结果不正常,原因可能是KerberosAdmin服务所在节点故障,或者SlapdServer服务不可用。操作人员进行KerberosAdmin服务恢复时,请尝试如下操作: 检查KerberosAdmin服务所在节点是否故障。 检查SlapdServer服务是否不可用。
  • 平均负载 指标项名称:平均负载 指标项含义:系统平均负载,表示特定时间段内运行队列中的平均进程数。这里系统平均负载是通过uptime命令中得到的负载值计算得到。计算方法:(1分钟负载 + 5分钟负载 + 15分钟负载)/(3*CPU个数)。当前阈值设置为2,如果超过阈值,则认为不健康。 恢复指导: 登录检查结果不健康的节点,执行uptime命令,命令输出的最后三列分别表示1分钟负载、5分钟负载和15分钟负载。根据系统平均负载的计算方法,如果负载超过阈值,则执行2。 如果系统平均负载超过阈值,建议对系统进行扩容,如增加节点等。
  • 主机文件句柄使用率 指标项名称:主机文件句柄使用率 指标项含义:系统中的文件句柄的使用率,主机文件句柄使用率=已用句柄数/总共句柄数。如果使用率超过阈值,则认为不健康。 恢复指导: 确认主机文件句柄使用率。 登录检查结果不健康的节点,执行cat /proc/sys/fs/file-nr,输出结果的第一列和第三列分别表示系统已使用的句柄数和总句柄数,如果使用率超过阈值,则执行2。 如果主机文件句柄使用率超过阈值,建议对系统进行排查,具体分析文件句柄的使用情况。
  • 硬件状态 指标项名称:硬件状态 指标项含义:检查系统硬件状态,包括CPU、内存、磁盘、电源、风扇等。该检查项通过ipmitool sdr elist获取相关硬件信息。如果相关硬件状态异常,则认为不健康。 恢复指导: 登录检查结果不健康的节点。执行ipmitool sdr elist查看系统硬件状态,命令输出的最后一列表示对应的硬件状态。如果提示的状态在下面的故障描述表中,则任务不健康。 模块 故障描述 Processor IERR Thermal Trip FRB1/BIST failure FRB2/Hang in POST failure FRB3/Processor startup/init failure Configuration Error SM BIOS Uncorrectable CPU-complex Error Disabled Throttled Uncorrectable machine check exception Power Supply Failure detected Predictive failure Power Supply AC lost AC lost or out-of-range AC out-of-range, but present Config Error: Vendor Mismatch Config Error: Revision Mismatch Config Error: Processor Missing Config Error: Power Supply Rating Mismatch Config Error: Voltage Rating Mismatch Config Error Power Unit 240VA power down Interlock power down AC lost Soft-power control failure Failure detected Predictive failure Memory Uncorrectable ECC Parity Memory Scrub Failed Memory Device Disabled Correctable ECC logging limit reached Configuration Error Throttled Critical Overtemperature Drive Slot Drive Fault Predictive Failure Parity Check In Progress In Critical Array In Failed Array Rebuild In Progress Rebuild Aborted Battery Low Failed 如果该指标项异常,建议联系运维人员解决处理。
  • 主机名 指标项名称:主机名 指标项含义:检查是否设置了主机名。如果没有设置主机名,则认为不健康。如果该指标项异常,建议正确设置hostname。 恢复指导: 登录检查结果不健康的节点。 执行以下命令修改主机名,使节点主机名与规划的主机名保持一致: hostname 主机名。例如,将主机名改为“Bigdata-OM-01”,请执行命令hostname Bigdata-OM-01。 修改主机名配置文件。 执行vi /etc/HOSTNAME命令编辑文件,修改文件内容为“Bigdata-OM-01”,并保存退出。
  • OMS的HA状态 指标项名称:OMS的HA状态 指标项含义:检查OMS的双机资源是否正常。OMS双机资源状态的详细信息可使用${CONTROLLER_HOME}/sbin/status-oms.sh查看。如果有模块状态异常,认为不健康。 恢复指导: 登录主管理节点,执行su - omm切换到omm用户,然后执行${CONTROLLER_HOME}/sbin/status-oms.sh查看OMS状态。 如果floatip、okerberos、oldap等异常,可参见告警ALM-12002、ALM-12004、ALM-12005分别进行处理。 如果是其他资源异常,建议查看相关异常模块的日志。 controller资源异常:查看异常节点的/var/log/Bigdata/controller/controller.log。 cep资源异常:查看异常节点的/var/log/Bigdata/omm/oms/cep/cep.log。 aos资源异常:查看异常节点的/var/log/Bigdata/controller/aos/aos.log。 feed_watchdog资源异常:查看异常节点的/var/log/Bigdata/watchdog/watchdog.log。 httpd资源异常:查看异常节点的/var/log/Bigdata/httpd/error_log。 fms资源异常:查看异常节点的/var/log/Bigdata/omm/oms/fms/fms.log。 pms资源异常:查看异常节点的/var/log/Bigdata/omm/oms/pms/pms.log。 iam资源异常:查看异常节点的/var/log/Bigdata/omm/oms/iam/iam.log。 gaussDB资源异常:查看异常节点的/var/log/Bigdata/omm/oms/db/omm_gaussdba.log。 ntp资源异常:查看异常节点的/var/log/Bigdata/omm/oms/ha/scriptlog/ha_ntp.log。 tomcat资源异常:查看异常节点的/var/log/Bigdata/tomcat/catalina.log。 如果通过日志无法排除问题,请联系运维人员处理,并发送已收集的故障日志信息。
  • 安装目录及数据目录检查 指标项名称:安装目录及数据目录检查 指标项含义:该指标项首先检查安装目录(默认为“/opt/Bigdata”)所在磁盘分区根目录下的lost+found目录。如果该目录下有omm用户的文件,则认为异常。节点异常时,会把相关的文件放入到“lost+found”目录。该检查主要是针对这类场景,检查文件是否丢失。然后,对安装目录(如:“/opt/Bigdata”)和数据目录(如:“/srv/BigData”)进行检查。如果目录下出现非omm用户的文件,则认为不健康。 恢复指导: 登录检查结果不健康的节点,执行su - omm切换到omm用户。检查lost+found目录是否存在omm用户的文件或文件夹。 如果有omm用户文件,建议对其进行恢复后重新检查;如果没有omm用户文件,则执行2。 分别对安装目录和数据目录进行排查。查看目录下是否存在非omm用户是文件或文件夹。如果确认这些文件是手工生成的临时文件,建议对清理后重新检查。
  • 操作步骤 访问MRS Manager,详细操作请参见访问MRS Manager(MRS 2.x及之前版本)。 在MRS Manager,单击“系统设置”。 在“权限配置”区域,单击“用户组管理”。 在组列表上方,单击“添加用户组”。 填写“组名”和“描述”。 “组名”为必选参数,字符长度为3到20,可以包含数字、字母和下划线。“描述”为可选参数。 在“角色”,单击“选择添加角色”选择指定的角色并添加。 如果不添加角色,则当前创建的用户组没有使用MRS集群的权限。 单击“确定”完成用户组创建。
共100000条