检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
级上来的,升级完成之后可不进行设置。 操作步骤 登录FusionInsight Manager 。 选择“集群 > 待操作集群的名称 > 服务 > Hive > 配置 > 全部配置”。 选择“HiveServer(角色) > 自定义”,对参数文件“spark-defaults.c
MapReduce任务长时间无进展 问题 MapReduce任务长时间无进展。 回答 一般是因为内存太少导致的。当内存较小时,任务中拷贝map输出的时间将显著增加。 为了减少等待时间,您可以适当增加堆内存空间。 任务的配置可根据mapper的数量和各mapper的数据大小来进行优
列在Yarn的服务里面仍然残留。由于Yarn的机制,无法动态删除队列,管理员可以执行命令手动清除残留的队列。 对系统的影响 脚本运行过程中会重启controller服务,同步Yarn的配置,并重启主备ResourceManager实例。 重启controller服务时,无法登录和操作FusionInsight
时产生该告警。用户可通过"组件管理 > Presto > 服务配置(将“基础配置”切换为“全部配置”) >Presto > resource-groups " 配置资源组。用户可通过"组件管理 > Presto > 服务配置(将“基础配置”切换为“全部配置”) > Coordinator
到GC时间超出阈值(连续3次检测超过5s)时产生该告警。用户可在FusionInsight Manager中通过“运维 > 阈值配置 > 服务 > Presto > 集群状态 > Worker进程GC时间”修改阈值。当 Worker进程GC时间小于或等于告警阈值时,告警清除。 告警属性
告警属性 告警ID 告警级别 是否自动清除 45178 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。
重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行6。 重启服务期间服务不可用,业务中断。重启实例期间实例不可用,当前实例节点任务会执行失败。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Ranger”。
> 待操作集群的名称 > 服务 > Presto > 配置”,选择“全部配置”, 选择“Worker > JVM”,将“JAVA_OPTS”参数中“Xmx”的值根据实际情况进行调大,并单击“保存”。 返回“概览”页面,单击“更多 > 重启服务”重启服务。 观察界面告警是否清除。 是,处理完毕。
告警。 告警属性 告警ID 告警级别 是否自动清除 45333 次要 是 告警参数 参数名称 参数含义 ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名 对系统的影响 无 可能原因 Presto实例线程数量过大。
告警。 告警属性 告警ID 告警级别 是否自动清除 45334 次要 是 告警参数 参数名称 参数含义 ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 无 可能原因 Presto实例线程数量过大。
参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 直接内存溢出可能导致服务不可用,可能影响该IoTDBServer进程无法正常提供数据读写服务。
重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行6。 在重启服务或实例期间,可能会造成访问Guardian失败,从而导致作业无法访问OBS。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Guardian”。
紧急(默认阈值为200ms) 重要(默认阈值为100ms) 是 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名称。 附加信息 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
告警属性 告警ID 告警级别 是否可自动清除 50220 紧急 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。
告警参数 参数名称 参数含义 ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 PathName 异常的文件路径或者名称。 对系统的影响 导致文件所属服务功能不正常。 可能原因 用户手动修改了文件配置或者系统异常下电等原因。
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 故障的NodeManager节点无法提供Yarn服务。 容器减少,集群性能下降。
系统每小时周期性检测配置quota的所有服务目录的znode数量,当检测到某个二级znode的数量使用率超过阈值时产生该告警。 告警属性 告警ID 告警级别 是否自动清除 13010 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 服务目录 产生告警的目录名称。
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 MapReduce可用直接内存不足,可能会造成内存溢出导致服务崩溃。 可能原因
理”,选择需要重启的服务,进入服务页面。在“服务状态”页签单击“更多”,选择“重启服务”或“滚动重启服务”。 在FusionInsight Manager界面,选择“集群 > 服务 > 待操作的服务名称”,单击右上角的“更多”,选择“重启服务”或“滚动重启服务”。 升级路径不一样重启的服务不一样,详情见如下表格。
回滚补丁前检查 卸载补丁前需要手动进行相关检查。 检查所有节点管理平面网络是否互通 登录FusionInsight Manager界面,选择“运维 > 告警 > 告警”。 查看当前集群是否存在“ALM-12089 节点间网络互通异常”或“节点故障”等告警。 是,节点间网络不互通,请联系运维人员修复。