检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
值时,告警恢复;平滑次数大于1,丢失的HDFS块数量小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 14003 重要 说明: MRS 3.1.5版本告警级别为“紧急”。 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。
回答 在yarn-client模式下,Spark的Driver和ApplicationMaster作为两个独立的进程在运行。当Driver完成任务退出时,会通知ApplicationMaster向ResourceManager注销自身,即调用unregister方法。 由于是远程调用
如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作前需要进行如下配置: 获取关系型数据库对应的驱动jar包保存在Loader服务主备节点的lib路径:“${BIGDATA_HOME}/Fusi
录状态异常时产生该告警。 平滑次数为1,当数据目录状态恢复正常后,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 38008 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名称。
Oozie定时任务没有准时运行如何处理 问题 在Hue或者Oozie客户端设置执行Coordinator定时任务,但没有准时执行。 回答 设置任务时,需要使用UTC时间。 例如在“job.properties”中配置“start=2016-12-20T09:00Z”。 修改配置后重新启动定时任务即可。
次检测到AOS资源异常时,产生该告警。 当HA检测到AOS资源正常后,告警恢复。 AOS资源为单主资源,一般资源异常会导致主备倒换,看到告警时,基本已经主备倒换,并在新主环境上启动新的ACS资源,告警恢复。该告警用于提示用户,Manager主备倒换的原因。 MRS 3.3.1及之
kServer和客户端三种方式对接AOM服务,将Flink监控指标上传至AOM服务。 Flink对接AOM服务前提条件 已开通应用运维管理AOM服务。 MRS集群中已安装HDFS、Yarn、Kafka和Flink服务。 包含Flink服务的客户端已安装,例如安装路径为:/opt/client
当Manager中的Ldap资源异常时,系统产生此告警。 当Manager中的Ldap资源恢复,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 12004 严重 是 告警参数 参数名称 参数含义 ServiceName 产生告警的服务名称。 RoleName 产生告警的角色名称。 HostName
Hive数据源,并通过HetuEngine查询本集群Hive数据源的数据库表。 前提条件 集群已安装HetuEngine、Hive服务及其所依赖的服务(DBService、KrbServer、Zookeeper、HDFS、Yarn、MapReduce)且运行正常。 如集群已启用K
生该告警。 当HA检测到controller资源正常后,告警恢复。 controller资源为单主资源,一般资源异常会导致主备倒换,看到告警时,基本已经主备倒换,并在新主环境上启动新的controller资源,告警恢复。该告警用于提示用户,Manager主备倒换的原因。 告警属性
MapReduce大任务的AM调优 操作场景 当运行一个大任务(map总数达到了10万的规模),但是一直没有运行成功。经过查询发现是ApplicationMaster(以下简称AM)反应缓慢,最终超时失败。 此任务的问题是,task数量变多时,AM管理的对象也线性增长,因此就需要
MapReduce大任务的AM调优 操作场景 当运行一个大任务(map总数达到了10万的规模),但是一直没有运行成功。经过查询发现是ApplicationMaster(以下简称AM)反应缓慢,最终超时失败。 此任务的问题是,task数量变多时,AM管理的对象也线性增长,因此就需要
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 MapReduce可用直接内存不足,可能会造成内存溢出导致服务崩溃。 可能原因
0-LTS及之后的版本中,Spark2x服务改名为Spark,服务包含的角色名也有差异,例如JobHistory2x变更为JobHistory。相关涉及服务名称、角色名称的描述和操作请以实际版本为准。 前提条件 已安装Ranger服务且服务运行正常。 已启用Hive服务的Ranger鉴权功能,并
产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 NameNode可用直接内存不足,可能会造成内存溢出导致服务崩溃。 可能原因 该
重启受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行6。 重启服务期间服务不可用,业务中断。重启实例期间实例不可用,当前实例节点任务会执行失败。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Ranger”。
重新启动受影响的服务或实例,观察界面告警是否清除。 是,处理完毕。 否,执行6。 重启服务期间服务不可用,业务中断。重启实例期间实例不可用,当前实例节点任务会执行失败。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Ranger”。
使用Oozie客户端提交Spark2x任务 操作场景 该任务指导用户在使用Oozie客户端提交Spark2x任务。 请下载使用最新版本的客户端。 前提条件 Spark2x和Oozie组件安装完成且运行正常,客户端安装成功。 如果当前客户端为旧版本,需要重新下载和安装客户端。 已创建或获取访问Oozie服务的人机用户账号及密码。
否正确),如果证书文件非法或已损坏,产生该告警。证书文件恢复合法,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24013 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。
产生告警的集群或者系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 监控指标上报CES失败,在CES中无法看到MRS云服务的监控指标。 可能原因 权限问题请求CES接口失败。 网络问题上报CES数据失败。 服务内部问题导致上报CES数据失败。