检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
11 修复问题列表: MRS Manager 解决executor/knox/os日志不回滚问题 增加executor GC日志 解决knox重启失败问题 解决节点故障提交作业失败问题 支持全链路监控 解决ResourceManager主备倒换导致作业状态不更新问题 解决部分场景下备份恢复失败问题
图1中各模块的功能说明如表1所示。 表1 模块说明 名称 描述 NameNode 用于管理文件系统的命名空间、目录结构、元数据信息以及提供备份机制等,分为: Active NameNode:管理文件系统的命名空间、维护文件系统的目录结构树以及元数据信息;记录写入的每个“数据块”与其归属文件的对应关系。
问题现象 无法启动HDFS、Yarn服务组件,报错内容:/dev/null Permission denied。 原因分析 用户修改了虚机系统的“/dev/null”的权限值为775。 处理步骤 以root用户登录集群的任意一个Master节点。 登录成功后,执行chmod 666
s热键问题 解决磁盘写速率和磁盘读速率两个指标无法正常上报问题 解决查看指定时间段内的资源概况,监控数据部分缺失问题 解决NameNode退服缓存残留问题 解决Metastore监控指标缺失问题 解决认证krb_test_user失败问题 解决Yarn所有业务中断,报错Timer
ClickHouse企业级能力增强 ClickHouse多租户管理 查看ClickHouse慢查询语句 查看ClickHouse复制表数据同步监控 配置ClickHouse副本间数据强一致 配置ClickHouse支持事务能力 配置通过ELB访问ClickHouse 配置ClickHouse冷热分离
MRS集群运维 MRS集群运维说明 登录MRS集群 查看MRS集群监控指标 MRS集群健康检查 MRS集群容量调整 备份恢复MRS集群数据 安装MRS集群补丁 MRS集群补丁说明 查看MRS集群日志 MRS集群安全配置 查看与配置MRS告警事件 MRS集群告警处理参考 配置MRS集群远程运维
ALM-45635 FlinkServer作业失败 适用于MRS 3.1.2及之后版本。 告警解释 系统每10秒为周期检查FlinkServer作业是否执行失败,如果失败则产生告警。作业重新启动成功,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45635 重要 是 告警参数
配置HetuEngine维护实例 配置HetuEngine Coordinator运行的节点范围 导入导出HetuEngine计算实例配置 查看HetuEngine实例监控页面 查看HetuEngine Coordinator和Worker日志 配置HetuEngine查询容错执行能力 父主题: 使用HetuEngine
tor、Bundle,以及它们的任务管理和监控。 在Hue前端提供图形化工作流、Coordinator、Bundle编辑器,Hue调用Oozie REST接口对工作流、Coordinator、Bundle进行创建、修改、删除、提交、监控。 ZooKeeper ZooKeeper提
配置HetuEngine物化视图推荐能力 配置HetuEngine物化视图缓存能力 配置HetuEngine物化视图的有效期与数据刷新能力 配置HetuEngine智能物化视图能力 查看HetuEngine物化视图自动化任务 父主题: 使用HetuEngine
ALM-12081 ommdba用户过期 告警解释 系统每天零点开始,每8小时检测当前系统中ommdba用户是否过期,如果用户过期,则发送告警。 当系统中ommdba用户过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12081 重要 是 告警参数
Storm”,查看Storm服务当前状态,发现状态为“良好”,且监控指标内容显示正确。 对于MRS 3.x及后续版本集群:登录FusionInsight Manager。选择“集群 > 服务 > Storm”,查看Storm服务当前状态,发现状态为“良好”,且监控指标内容显示正确。 查看客户端提交日志,
系统崩溃:如果丢失的是系统盘可能导致客户此节点系统运行异常,严重时导致系统崩溃无法正常开机运行。 业务失败:如果丢失的设备分区上会进行组件的业务读写操作,可能会导致业务运行异常,如作业运行失败,作业运行缓慢等。 业务延迟:设备分区丢失,客户可能需要花费时间来恢复数据和系统,这可能会导致业务延迟。
ZooKeeper连接断开 告警解释 系统每分钟检测一次ClickHouse和ZooKeeper的连接情况,如果检测连接失败,系统产生告警(告警原因为ZooKeeper连接异常)。如果连续3次检测连接失败,系统产生告警(告警原因为ZooKeeper连接断开)。 当系统检测到有一次连接成功,告警自动清除。
防止因HBase的系统表目录或者文件损坏导致HBase服务不可用,或者系统管理员需要对HBase系统表进行重大操作(如升级或迁移等)时,需要对HBase元数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight
息,可能导致系统崩溃。 ERROR ERROR表示当前事件处理出现错误信息,系统运行出错。 WARN WARN表示当前事件处理存在异常信息,但认为是正常范围,不会导致系统出错。 INFO INFO表示系统及各事件正常运行状态信息。 DEBUG DEBUG表示系统及系统的调试信息。
ALM-19033 RegionServer的RPC读队列数超过阈值 告警解释 系统每30秒周期性检测每个HBase服务的RegionServer实例的RPC读队列待处理任务个数,当检测到某个RegionServer上的RPC读队列待处理任务个数连续10次超出阈值时产生该告警。
resourcemanager.scheduler.monitor.policies”中的策略,启用新的scheduler监控。设置为“true”表示启用监控,并根据scheduler的信息,启动抢占的功能。设置为“false”表示不启用。 false yarn.resourcemanager
Manager增加大数据服务滚动重启能力 MRS Manager新增文件句柄数量监控 MRS Manager新增大数据组件发生重启事件上报 MRS 镜像 解决ECS VNC登录不停打印输出问题 解决操作系统日志转储配置问题 MRS 1.7.1.3 修复问题列表: MRS Manager新增运维通道功能。
产生告警的服务名称。 服务目录 产生告警的目录名称。 角色名 产生告警的角色名称。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 向ZooKeeper数据目录空间写入大量数据,导致ZooKeeper无法对外正常提供服务,导致依赖告警目录的