检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Catalog等。 可能原因 获取的AK/SK失效。 连接OBS失败。 处理步骤 确认上报告警原因。 登录FusionInsight Manager,选择“运维 > 告警 > 告警”,选中“告警ID”为“50229”的告警,查看“定位信息”中的角色名并确定实例的IP地址,查看“附加信息”中的CurrentValue值。
warn(Logging.scala:83) 通过异常信息,发现当前Flume向Kafka写入的数据超过了Kafka服务端定义的消息的最大值。 通过Manager查看Kafka服务端定义的消息的最大值。 MRS Manager界面操作入口:登录MRS Manager,依次选择 “服务管理
服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 当前FE实例不可用,无法响应客户端请求。 可能原因 FE实例由于某种原因出现故障或被重启。 处理步骤
conf”中参数“meta_dir”的值,该值即为元数据存储目录 寻找所有FE的元数据存储目录,查看此存储目录下子文件“image/image.xxxx”,其中“image.xxxx”后面的数字越大表示元数据越新,找到最新的一个FE,作为即将首个恢复的FE,即Master。 备份所有FE的元数据存储目录。
(Pending)的任务数量,并把挂起状态的任务数量和阈值进行比较。当检测到挂起状态的任务数超过阈值时产生该告警。 用户可通过在MRS Manager中的“系统设置 > 阈值配置 > 服务 > Yarn > 队列root正在挂起的任务 > 队列root正在挂起的任务”修改阈值。
ALM-12057 元数据未配置周期备份到第三方服务器的任务 告警解释 系统安装完成后会检查元数据是否有周期备份到第三方服务器的任务,然后每1小时会检查一次。如果元数据未配置周期备份到第三方服务器的任务,将发送重要告警。 在用户创建元数据周期备份到第三方服务器的任务后,告警消除。 告警属性 告警ID
方法获取的KafkaChannel为空,以至于疯狂打印NullPointerException,上述日志可以发现,认证失败的原因是用户密码不正确,密码不正确的原因可能是用户名不匹配导致。 检查Jaas文件和Keytab文件,发现Jaas文件中配置使用的pricipal为stream。
单击“管理安全组规则”,检查安全组规则配置。 检查入口方向Any协议的源地址是否为0.0.0.0/0。 如果是,修改入口方向Any协议的远端为指定IP地址。如果不是,则无需修改。 修改成功后,重启集群。 建议与总结 关闭入口方向的Any协议,或者指定入口方向的Any协议远端为指定IP。 父主题: 使用Yarn
尔会造成Hive不可用,影响上层业务。 原因分析 在出现告警时间点发现虚拟机发生了重启,告警发生的原因是因虚拟机重启导致的。 经OS定位虚拟机发生重启的原因是节点没有可用的内存,系统发生内存溢出触发了oom-killer,当进程处于被调用的状态会使进程处于disk sleep状态,最终导致虚拟机发生重启。
Spark提示无法获取到yarn的相关jar包。 提示多次提交一个文件。 原因分析 问题1: 最常见的无法提交任务原因是认证失败, 还有可能是参数设置不正确。 问题2: 集群默认会把分析节点的hadoop相关jar包添加到任务的classpath中,如果提示yarn的包找不到,一般都是因为hadoop的相关配置没有设置。
Manager主备倒换的原因。 告警属性 告警ID 告警级别 是否自动清除 12071 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 告警长期存在时,
来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务延迟:主机D状态和Z状态进程数过高时,无法创建新的业务进程,可能会导致并发任务处理变慢、业务延迟。
精确一次语义:Flink的Checkpoint和故障恢复能力保证了任务在故障发生前后的应用状态一致性,为某些特定的存储支持了事务型输出的功能,即使在发生故障的情况下,也能够保证精确一次的输出。 丰富的时间语义 时间是流处理应用的重要组成部分,对于实时流处理应用来说,基于时间语义的窗口聚合、检
Catalog等。 可能原因 获取的AK/SK失效。 连接OBS失败。 处理步骤 确认上报告警原因。 登录FusionInsight Manager,选择“运维 > 告警 > 告警”,选中“告警ID”为“50230”的告警,查看“定位信息”中的角色名并确定实例的IP地址,查看“附加信息”中的CurrentValue值。
购买MRS集群,提交订单时,报无效认证,怎么办? 答: 通过管理人员检查API请求日志发现告警信息为细粒度策略中未赋予IAM用户“mrs:cluster:create”的权限导致。 分析原因为当前IAM用户归属在多个用户组内,多个用户组分别赋予了不同的MRS默认策略,由于权限是优先匹配低权限策略,该策略缺少“mrs
角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 可能引起Manager主备倒换。无法对aos上层应用提供租户及角色管理功能,可能引起无法登录Manager和组件的WebUI。 可能原因 AOS进程异常。 处理步骤 检查AOS进程是否异常。 打开FusionInsight
LauncherJob作业执行失败,报错信息为“jobPropertiesMap is null”如何处理? 问: Launcher作业失败的,提示原因为:提交作业用户无“hdfs /mrs/job-properties”目录的写权限如何处理? 答: 该问题已在MRS 2.1.0.6的补丁中修复,也可通过在MRS
at index” 问题 运行应用程序时,操作失败,日志显示如图1所示。 图1 操作失败日志 回答 可能的原因是URL中带空格导致服务器端无法正确识别URL。 需要去掉URL中的空格。 父主题: Manager应用开发常见问题
角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 可能引起Manager主备倒换。无法对acs上层应用提供安全认证和用户管理功能,可能引起无法登录Manager和组件的WebUI。 可能原因 ACS进程异常。 处理步骤 检查ACS进程是否异常。 打开FusionInsight
Manager主备倒换的原因。 告警属性 告警ID 告警级别 是否自动清除 12075 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 告警长期存在时,会导