检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
产生告警的集群名称。 服务名 产生告警的服务名称。 主机名 产生告警的主机节点信息。 对系统的影响 sssd服务不可用时,可能会影响该节点从LdapServer上同步数据,此时,使用id命令可能会获取不到ldap中的数据,影响上层业务。 可能原因 sssd服务未启动或启动错误。 网络故障,无法访问Ldap服务器。
周期之内,用户的业务增长超过预期时,就会出现超出包周期订单规模外的扩容诉求。MRS服务支持包周期集群扩容能力,做到了在轻松帮助您完成扩容的前提下,让您继续享受着包周期的优惠。 您只需要打开MRS服务页面,通过界面操作便可扩容出您需要的节点数。整个扩容过程无需后台人工介入,只需几分
参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 数据库进入只读模式,业务数据丢失。 数据库进入只读模式,上层服务写业务操作相关数据丢失。 可能原因
MRS不支持退订部署了ZooKeeper、Kudu、Kafka及ClickHouse服务的节点。 MRS 3.1.2之前版本ClickHouse服务的节点不支持退订。 MRS 3.1.2及之后版本ClickHouse服务的节点,必须等退服成功后,才能进行退订操作。 退订包周期集群指定节点操作
该任务指导用户定期修改MRS集群Kerberos或OMS Kerberos(MRS 3.x及之后版本)管理员“kadmin”的密码,以提升系统运维安全性。 修改该密码会导致已经下载的用户凭证不可用,请修改该密码后重新下载认证凭据并替换旧凭据。 前提条件 MRS 2.x及之前版本,已在Master1节点准备客户端。
pid_max”最大可设置为: 32位系统:32768 64位系统:4194304(2的22次方) 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行2。 检查系统环境是否异常。 联系运维人员,检查操作系统是否存在异常。 是,恢复操作系统故障,执行2.b。 否,执行3。 等待5分钟,检查该告警是否恢复。
登录MRS集群 查看MRS集群主备管理节点 登录MRS集群节点 父主题: MRS集群运维
管理MRS集群节点 查看MRS集群节点运行状态 启停MRS集群节点上所有角色 隔离MRS集群节点 修改MRS集群节点机架信息 升级MRS集群Master节点规格 同步MRS集群节点磁盘信息 添加MRS集群节点标签 配置MRS集群节点引导操作 父主题: 管理MRS集群
-c命令查看到占用内存较高的进程中有knox进程,且此进程占用内存超过4 GB。 原因分析 knox进程没有单独配置内存,进程会自动根据系统内存大小按照比例划分可用内存,导致knox占用内存大。 处理步骤 以root用户分别登录Master节点。 打开文件“/opt/knox/bin/gateway
检查LdapServer服务是否正常 登录FusionInsight Manager页面,选择“集群 > 服务”,查看LdapServer服务“运行状态”是否为“良好”。 是,执行8。 否,执行7。 请根据告警资料“ALM-25000 LdapServer服务不可用”处理“LdapServer服务不可用”告警。
sername。 从ZooKeeper客户端创建znode,其kerberos principal是“zkcli/hadoop.<系统域名>@<系统域名>”。 例如打开日志<ZOO_LOG_DIR>/zookeeper_audit.log,内容如下: 2016-12-28 14:17:10
服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 当ClickHouse写入分布式表节点发送数据文件到远端分片节点失败时,会导致执行分布式表查询等操作结果异常。 可能原因 ClickHouse某些分片节点状态异常。 处理步骤 登录FusionInsight
缩容MRS集群 用户可以根据业务需求量,通过简单的缩减Core节点或者Task节点,对集群进行缩容,以使MRS拥有更优的存储、计算能力,降低运维成本。 当集群正在进行主备同步操作时,不允许进行缩容操作。 包周期集群不支持该方式缩容,仅按需计费集群支持该方式缩容。如需缩容包周期计费
HBase日志文件过大导致OS盘空间不足 用户问题 OS盘/var/log分区空间不足。 问题现象 “/var/log/Bigdata/hbase/*/hbase-omm-*.out”日志文件过大,造成OS盘/var/log分区空间不足。 原因分析 在HBase长时间运行场景下,操作系统会把JVM创建的“/tmp/
Presto查询Kudu表时系统报错找不到表 用户问题 使用Presto查询Kudu表报错。 问题现象 使用Presto查询Kudu表,报表找不到的错误: 后台报错: 原因分析 在实际的运行节点(worker实例所在节点)没有Kudu相关配置。 处理步骤 在集群Presto所有的
参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 设备分区名 产生告警的磁盘分区。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 DBService业务进程不能提供写数据接口。
是否自动清除 12011 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 备Manager的配置文件没有更新。当发生主备倒换时,同步异常的配置文件可能会丢
告警解释 系统每30秒周期性检查所有BE节点中最大的compaction score值,当检查到该值超出阈值(默认值为10)时产生该告警。 告警属性 告警ID 告警级别 是否可自动清除 50210 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。
重要 否 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Failed Volumes 故障的磁盘列表。 对系统的影响 上报DataNode磁盘故障告警时,表示该DataNode节点
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 导致某个场景下任务持续执行失败。 可能原因