正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HBase存在损坏的WAL文件,如果位于该文件上的数据未落盘,会导致这部分数据丢失,业务查询数据时出现部分数据不一致。 可能原因 WAL文件内容损坏。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,查看“告警ID”为“19026”的告警的“定位信息”中上报该告警的服务名。
为“ZooKeeper”。 是,执行5。 否,执行7。 参考“ALM-12007 进程故障”的处理步骤处理该故障。 在告警列表中,查看“Loader服务不可用”告警是否清除。 是,处理完毕。 否,执行7。 检查HDFS服务状态。 在FusionInsight Manager的告警
Flume Client端与Flume Server端网络故障。 Flume Client端进程故障。 Flume Client端配置错误。 处理步骤 检查Flume Client与Flume Server的网络状况。 以root用户登录到告警定位参数中描述的Flume Client
障”告警产生。 是,执行11。 否,执行19。 按“ALM-12007 进程故障”提供的步骤处理该告警。 等待5分钟,查看告警列表中的DBService服务不可用告警是否恢复。 是,处理完毕。 否,执行19。 检查主备DBServer数据库进程状态。 以root用户登录DBService浮动IP所在主机,执行su
单副本的Topic存在单点故障风险,当副本所在节点异常时,会直接导致Partition没有leader,影响该Topic上的业务。 可能原因 Topic副本数配置不合理。 处理步骤 检查Topic副本数配置。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,单击此告警所在行的,
KrbServer服务不可用”。 是,执行3。 否,执行5。 参考“ALM-25500 KrbServer服务不可用”章节处理对应的告警。 ALM-25500告警全部恢复后,等待几分钟,检查本告警是否恢复。 是,处理完毕。 否,执行5。 检查IoTDBServer实例是否故障 在FusionInsight Manager首页,选择“集群
Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务进程响应缓慢或不可用。 可能原因 告警阈值配置或者平滑次数配置不合理。 处理步骤 检查告警阈值配置或者平滑次数配置是否合理。 登录FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称
Spark应用开发常见问题 Spark常用API介绍 structured streaming功能与可靠性介绍 如何添加自定义代码的依赖包 如何处理自动加载的依赖包 运行SparkStreamingKafka样例工程时报“类不存在”问题 SparkSQL UDF功能的权限控制机制
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务延迟:主机CPU使用率过高时,可能会导致业务进程运行处理缓慢、业务延迟。 业务失败:主机CPU使用率过高时,可能会导致业务处理缓慢、超时、失败,可能会导致作业运行失败。 可能原因 告警阈值配置或者平滑次数配置不合理。 CPU配置无
业务失败:主机网络写吞吐率超过阈值时,请求无法正常响应、超时,可能会导致作业运行失败。 可能原因 告警阈值配置不合理。 网口速率不满足当前业务需求。 处理步骤 检查阈值设置是否合理。 在FusionInsight Manager,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > 主机
升级观察期禁止对用户、实例、角色、服务、主机、资源池等执行添加或删除等影响管理拓扑结构的操作。 可能原因 系统升级之后超过一定时间(默认为10天)未做升级提交。 处理步骤 查看系统是否处于升级观察期。 以root用户登录主管理节点,用户密码为安装前用户自定义,请咨询系统管理员。管理节点的主备状态及对应IP地址可在FusionInsight
否,执行11。 参考“ALM-25500 KrbServer服务不可用”进行处理,查看KrbServer服务是否能够恢复。 是,执行12。 否,执行23。 在“运维 > 告警 > 告警”页签,查看该告警是否恢复。 是,处理完毕。 否,执行13。 检查ZooKeeper服务实例状态。 在FusionInsight
否,执行13。 参考“ALM-14008 HDFS DataNode内存使用率超过阈值”的处理步骤,对该异常告警进行处理,查看是否消除该告警。 是,执行12。 否,执行13。 在告警列表中查看本告警是否恢复。 是,处理完毕。 否,执行13。 查看NameNode是否负荷过高。 在FusionInsight
是,执行6。 否,执行8。 参考“ALM-14002 DataNode磁盘空间使用率超过阈值”进行处理,查看对应告警是否清除。 是,执行7。 否,执行8。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行8。 对DataNode进行扩容 对DataNode进行扩容。 在FusionInsight
相关参数配置不合理。 处理步骤 检查相关配置是否合理 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,查看是否存在告警ID为“19008”或“19011”的告警。 是,单击对应告警右侧的“查看帮助”并按照帮助文档进行处理,执行3。 否,执行2。
ALM-23003 Loader任务执行失败 告警解释 当系统检测到Loader任务执行失败时即时产生该告警。当用户手动处理执行失败的任务后该告警恢复。该告警需要手动清除。 告警属性 告警ID 告警级别 是否自动清除 23003 次要 否 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
否,执行13。 根据实际情况处理误写入的文件。 登录FusionInsight Manager,选择“集群 > 待操作集群的名称 > 服务 > DBService”,在“概览”页面查看“数据目录磁盘空间使用率”图表,检查数据目录磁盘空间使用率是否低于80%。 是,处理完毕。 否,执行13。
er之间的交互,进而影响业务生产、消费和Topic的创建、删除等操作。 可能原因 Sssd服务异常导致。 部分Broker实例停止运行。 处理步骤 检查是否有"Sssd服务异常"告警。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Kafka默认用户状态异常
Presto服务不可用可能由Presto Coordinator或Worker自身的进程故障引起。 Presto Coordinator和Worker实例间网络通信中断。 处理步骤 检查Coordinator/Worker进程状态。 在FusionInsight Manager首页,单击“集群 > 服务 > Presto
参考“ALM-27001 DBService服务不可用”告警帮助指导对DBService服务状态异常进行处理,待DBService告警消除后,查看“Ranger服务不可用”告警是否清除。 是,处理完毕。 否,执行3。 检查所有RangerAdmin实例。 以omm用户登录RangerAdmin实例所在节点,执行ps