检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Manager首页,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的“MemArtsCC”。 单击右上角的编辑按钮设置日志收集的“开始时间”和“结束时间”,分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
Server的角色。FlinkServer角色可设置FlinkServer管理员权限以及应用的编辑和查看权限。 用户需要在FlinkServer中对指定的用户设置权限,才能够更新数据、查询数据和删除数据等。 前提条件 集群管理员已根据业务需要规划权限。 操作步骤 登录Manager。
基于某些业务要求,要求开发Spark应用程序实现如下功能: 根据用户名累计用户的历史消费金额,即用户总消费金额=100(用户当天的消费金额) + 1000(用户历史消费金额)。 上例所示,运行结果table2表用户key=1的总消费金额为cf:cid=1100元。 数据规划 使用Spa
定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 NameService名 产生告警的NameService。 附加信息 触发条件 系统当前指标取值满足自定义的告警设置条件、集群外的DataNode节点IP及端口。 对系统的影响 当有脱离集群管控的DataNode时,可能造成数据丢失。
任务名 产生告警的任务名称。 用户名 产生告警的用户名称。 对系统的影响 Flink作业重启次数超阈值,说明Flink作业在频繁的失败重启,需要用户介入来查看原因,是Flink作业级别告警,对FlinkServer本身无影响。 可能原因 Flink重启次数超阈值的原因可在具体日志中查看。
选中“告警ID”为“18008”的告警,查看“定位信息”中的实例的IP地址及角色名。 单击“组件管理 > Yarn > 实例 > ResourceManager(对应上报告警实例IP地址) > 定制 > ResourceManager堆内存使用百分比统计”。查看堆内存使用情况。
角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 只读的表无法写入数据和修改数据。 影响复制表的数据同步,导致数据不一致。 可能原因 ZooKeeper压力大,元数据丢失。 处理步骤 登录FusionInsight Manager页面,选择“运维 > 告警 >
选中“告警ID”为“43012”的告警,查看“定位信息”中的实例的IP地址及角色名。 单击“组件管理 > Spark > 实例 > JDBCServer(对应上报告警实例IP地址) > 定制 >JDBCServer直接内存”。单击“确定”,查看直接内存使用情况。 查看JDBCS
C频繁。 处理步骤 检查GC时间。 登录MRS集群详情页面,选择“告警管理”。 选中“告警ID”为“44006”的告警,查看“定位信息”中的实例的IP地址及角色名。 单击“组件管理 > Presto > 实例 > Worker(对应上报告警实例IP地址) > 定制 > Prest
告警”,在实时告警列表中,单击此告警前的,在“定位信息”中查看角色名并确认实例的IP地址。 选择“集群 > 服务 > IoTDB > 实例”,单击1获取到的IP地址对应的ConfigNode,在“概览”界面查看图表“ConfigNode堆内存使用率”是否已达到ConfigNode进程设定的最大堆内存的阈值。
告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 触发条件 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 进程状态异常会导致该进程无法提供正常服务,进而可能导致服务整体异常。
FlinkServer作业Task持续背压的具体原因可在具体日志中查看。 处理步骤 使用具有FlinkServer管理操作权限的用户登录Manager。 选择“集群 > 服务 > Yarn”,单击“ResourceManager WebUI”后的链接进入Yarn页面。 根据告警“定位信息”中的任务名找到失败
来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 任务名 任务名称。 对系统的影响 周期备份任务失败,会导致在备份失败的时间段内没有可用的备份包。在系统出现异常需要使用备份包恢复数据时,没有失败时间段的备份包,导致失败时间段数据无法恢复。
是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 主机名 产生告警的主机名。 AgentId 产生告警的Agent id。 部件类型 产生告警的元素类型。 部件名 产生告警的元素名称。 对系统的影响 如果数据源有数据,Flume Source持续读取不到数据,采集会停止。
conf)。user.keytab和krb5.conf文件为安全模式下的认证文件,需要在FusionInsight Manager中下载principal用户的认证凭证,样例代码中使用的用户为:sparkuser,需要修改为准备好的开发用户。 打包项目 将user.keytab、krb5.conf
启动失败。 处理步骤 登录报错的RegionServer节点,执行以下命令查看节点剩余内存: free -g 执行top命令查看节点内存使用情况。 根据top提示结束内存占用多的进程(内存占用多并且非MRS自身组件的进程),并重新启动HBase服务。 集群的Core节点除了MRS
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 OBS write接口调用失败数高于阈值,会影响上层大数据计算业务的正常执行,导致某些计算任务的执行失败。
ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 提示用户证书文件即将过期,如果证书文件过期,则会导致部分功能受限,无法正常使用。 可能原因 系统证书文件(CA证书、HA根证书或者HA用户证书)剩余有效期小于证书的告警阈值。
Server的角色。FlinkServer角色可设置FlinkServer管理员权限以及应用的编辑和查看权限。 用户需要在FlinkServer中对指定的用户设置权限,才能够更新数据、查询数据和删除数据等。 前提条件 集群管理员已根据业务需要规划权限。 操作步骤 登录Manager。
Client与Flume Server的网络状况。 登录告警定位参数中描述的Flume ClientIP所在主机,执行以下命令切换root用户。 sudo su - root 执行ping Flume Server IP地址命令,检查Flume Client到Flume Server的网络是否正常。 是,执行2