检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Manager首页,选择“集群 > 服务 > Spark2x > 实例”,单击上报告警的JobHistory2x,进入实例“概览”页面,单击图表区域右上角的下拉菜单,选择“定制 > JobHistory2x的Full GC次数”,单击“确定”,查看JobHistory2x进程的Full
/home/flinkuser/keytab/abc222.keytab “/home/flinkuser/keytab/abc222.keytab”表示的是用户目录,为1中放置目录。 请确保客户端用户具备对应目录权限。 principal名。 security.kerberos.login
执行一遍。 如果出现Escape character is '^]'类似打印则说明可以连通,如果出现connection refused则表示失败,无法连接到相关端口。 如果相关端口打开,但是从别的节点无法连通到该端口,则需要排查下相关网络配置。 23662这个端口每次都是随机的
至少包含大写字母、小写字母、数字、特殊符号4种类型字符。 至少8位,最多64位。 出于安全考虑,建议用户定期更换自定义密码(例如三个月更换一次),并重新生成各项证书和信任列表。 使用omm用户在Flume实例产生告警的节点,重复执行5~6,等待1小时,观察此告警是否被清除。 是,执行8。 否,执行9。 查看系统在定时检查时是否会再次产生此告警。
Manager首页,选择“集群 > 服务 > Spark2x > 实例”,单击告警上报的JobHistory2x,进入实例“概览”页面,单击图表区域右上角的下拉菜单,选择“定制 > JobHistory2x的GC时间”,单击“确定”,查看JobHistory2x进程的GC时间是否大于阈值(默认12秒)。
Manager首页,选择“集群 > 服务 > Spark2x > 实例”,单击告警上报的IndexServer2x,进入实例“概览”页面,单击图表区域右上角的下拉菜单,选择“定制 > IndexServer2x的GC时间”,单击“确定”,查看IndexServer2x进程的GC时间是否大于阈值(默认12秒)。
Manager首页,选择“集群 > 服务 > Spark2x > 实例”,单击上报告警的IndexServer2x,进入实例“概览”页面,单击图表区域右上角的下拉菜单,选择“定制 > IndexServer2x的Full GC次数”,单击“确定”,查看IndexServer2x进程的Full
在FusionInsight Manager首页,选择“集群 > 服务 > Guardian > 实例”,单击1获取的主机名称对应的TokenServer角色,单击图表区域右上角的下拉菜单,选择“定制 > RPC > TokenServer RPC处理平均时间”,单击“确定”。 查看TokenServer
等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行4。 检查网口速率是否满足需求。 打开FusionInsight Manager页面,在实时告警列表中,单击此告警所在行的,获取告警所在主机地址及网口名称。 以root用户登录告警所在主机,用户密码为安装前用户自定义,请咨询系统管理员。 执行命令ethtool
> 待操作集群的名称 > 服务 > MapReduce > 实例 > JobHistoryServer(对应上报告警实例主机名)”,单击图表区域右上角的下拉菜单,选择“定制 > 资源”,勾选“JobHistoryServer非堆内存使用百分比统计”。查看非堆内存使用情况。 查看J
是,执行5。 否,执行6。 修复网络故障,查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行6。 联系硬件管理员查看是否节点硬件故障(CPU或者内存等)。 是,执行7。 否,执行12。 维修或者更换故障部件,并重启节点。查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行8。
”分隔,格式为:baseTaskCount:taskStep:memoryStep,minMemory:maxMemory,在键入时会严格校验格式。 表1 配置数值说明 数值名称 描述 设定要求 baseTaskCount 任务总量基数,只有当应用的task总数(map端与reduce端之和)不小于该值时配置才会起作用。
controller进程异常。 处理步骤 检查controller进程是否异常。 打开FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看该告警的主机名称。 以root用户登录该告警的主机地址,用户密码为安装前用户自定义,请咨询系统管理员。 执行命令su
> 待操作集群的名称 > 服务 > MapReduce > 实例 > JobHistoryServer(对应上报告警实例IP地址)”,单击图表区域右上角的下拉菜单,选择“定制 > 垃圾回收”,勾选“JobHistoryServer垃圾回收(GC)时间”。查看JobHistoryServer每分钟的垃圾回收时间统计情况。
在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Oozie > 实例”,选择上报告警实例主机名对应的角色,单击图表区域右上角的下拉菜单,选择“定制 > 内存”中的“Oozie直接内存使用率”,单击“确定”。 图1 定制Oozie直接内存使用率 查看Ooz
在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Flume > 实例”,选择上报告警实例主机名对应的角色,单击图表区域右上角的下拉菜单,选择“定制 > Agent > Flume直接内存使用率”,单击“确定”。 图1 Flume直接内存使用率 查看Flu
至少包含大写字母、小写字母、数字、特殊符号4种类型字符。 至少8位,最多64位。 出于安全考虑,建议用户定期更换自定义密码(例如三个月更换一次),并重新生成各项证书和信任列表。 查看系统在定时检查时是否会再次产生此告警。 是,执行9。 否,处理完毕。 收集故障信息。 在FusionInsight Manager界面,选择“运维
在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Kafka > 实例”,选择上报告警实例主机名对应的角色。单击图表区域右上角的下拉菜单,选择“定制 > 进程 > Kafka直接内存使用率”,单击“确定”。 图1 Kafka直接内存使用率 查看Kafka使
在FusionInsight Manager首页,选择“集群 > 服务 > Ranger > 实例”,选择上报告警实例主机名对应的角色,单击图表区域右上角的下拉菜单,选择“定制 > CPU和内存 > UserSync直接内存使用率”,单击“确定”。 图1 UserSync直接内存使用率
在FusionInsight Manager首页,选择“集群 > 服务 > Ranger > 实例”,选择上报告警实例主机名对应的角色,单击图表区域右上角的下拉菜单,选择“定制 > CPU和内存 > PolicySync直接内存使用率”,单击“确定”。 图1 PolicySync直接内存使用率