检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
告警”,在实时告警列表中,单击此告警前的,在“定位信息”中查看角色名并确认实例的IP地址。 选择“集群 > 服务 > IoTDB > 实例”,单击1获取到的IP地址对应的ConfigNode,在“概览”界面查看图表“ConfigNode堆内存使用率”是否已达到ConfigNode进程设定的最大堆内存的阈值。
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Worker1进程GC时间过长,会影响Worker1进程运行的性能,甚至造成Worker1进程不可用。
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Worker2进程GC时间过长,会影响Worker2进程运行的性能,甚至造成Worker2进程不可用。
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件 对系统的影响 Worker4进程GC时间过长,会影响Worker4进程运行的性能,甚至造成Worker4进程不可用。
更改NodeManager角色的存储目录,所有NodeManager实例的存储目录将同步修改。 更改NodeManager单个实例的存储目录,只对单个实例生效,其他节点NodeManager实例存储目录不变。 对系统的影响 更改NodeManager角色的存储目录需要停止并重新启动集群,集群未启动前无法提供服务。
启动失败。 处理步骤 登录报错的RegionServer节点,执行以下命令查看节点剩余内存: free -g 执行top命令查看节点内存使用情况。 根据top提示结束内存占用多的进程(内存占用多并且非MRS自身组件的进程),并重新启动HBase服务。 集群的Core节点除了MRS
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 OBS write接口调用失败数高于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。
来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 任务名 任务名称。 对系统的影响 周期备份任务失败,会导致在备份失败的时间段内没有可用的备份包。在系统出现异常需要使用备份包恢复数据时,没有失败时间段的备份包,导致失败时间段数据无法恢复。
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 提示用户证书文件即将过期,如果证书文件过期,则会导致部分功能受限,无法正常使用。 可能原因 系统证书文件(CA证书、HA根证书或者HA用户证书)剩余有效期小于证书的告警阈值。
是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 主机名 产生告警的主机名。 AgentId 产生告警的Agent id。 部件类型 产生告警的元素类型。 部件名 产生告警的元素名称。 对系统的影响 如果数据源有数据,Flume Source持续读取不到数据,采集会停止。
禁用跨AZ特性。 基于此策略新建的Topic的各个Partition的Leader会在集群节点上随机分配,但会确保同一Partition的不同Replica会分配在不同的机架上,所以当使用此策略时,需保证各个机架内的节点个数一致,否则会导致节点少的机架上的机器负载远高于集群平均水平。
不需要配置互信。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 规划好恢复数据保存表的数据库,数据表在HDFS的保存位置,以及访问恢复数据的用户清单。 检查ClickHouse备份文件保存路径。 停止ClickHouse的上层应用。 主备集群中,从远
Client与Flume Server的网络状况。 登录告警定位参数中描述的Flume ClientIP所在主机,执行以下命令切换root用户。 sudo su - root 执行ping Flume Server IP地址命令,检查Flume Client到Flume Server的网络是否正常。 是,执行2
建立在Hadoop基础上的开源的数据仓库,提供类似SQL的Hive Query Language语言操作结构化数据存储服务和基本的数据分析服务。 ZooKeeper 提供分布式、高可用性的协调服务能力。帮助系统避免单点故障,从而建立可靠的应用程序。 KrbServer 密钥的管理中心,负责票据的分发。
产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机节点信息。 对系统的影响 LdapServer数据不一致时,有可能是Manager上的LdapServer数据损坏,也有可能是集群上的LdapServer数据损坏,此时数据损坏的Ldap
告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 触发条件 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 进程状态异常会导致该进程无法提供正常服务,进而可能导致服务整体异常。
在FusionInsight Manager主页,单击左侧服务列表的DBService服务,进入DBService监控页面。 观察数据库用户已使用的连接数图表,如图1所示,用户根据业务场景评估,适当降低数据库用户连接数的使用。 图1 数据库用户已使用的连接数图表 等待2分钟查看告警是否自动恢复。 是,处理完毕。
该任务指导用户在运维场景或业务场景中使用Kafka客户端。 本章节适用于MRS 3.x及后续版本。 前提条件 已安装客户端,例如安装目录为“/opt/client”。 各组件业务用户由MRS集群管理员根据业务需要创建。“机机”用户需要下载keytab文件。“人机”用户第一次登录时需修改密码。(普通模式不涉及)
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件 对系统的影响 Worker3进程GC时间过长,会影响Worker3进程运行的性能,甚至造成Worker3进程不可用。
域展示)等场景下。 为保证Hive服务的高可用性、用户数据的安全及访问服务的可控制,在开源社区的Hive-3.1.0版本基础上,Hive新增如下特性: 基于Kerberos技术的安全认证机制。 数据文件加密机制。 完善的权限管理。 开源社区的Hive特性,请参见https://cwiki