检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
解决磁盘IO使用率一直不变问题 MRS大数据组件 MRS Kafka支持Kafka Consumer Lag监控 MRS Kafka支持Kafka 2181/9092进程端口监控 MRS 1.8.10.2 修复问题列表: MRS Manager 支持安装补丁不自动重启服务的能力 MRS大数据组件
resourcemanager.scheduler.monitor.policies”中的策略,启用新的scheduler监控。设置为“true”表示启用监控,并根据scheduler的信息,启动抢占的功能。设置为“false”表示不启用。 false yarn.resourcemanager
集群创建类 如何使用自定义安全组创建MRS集群? 购买MRS集群时找不到HDFS、Yarn、MapReduce组件如何处理? 购买MRS集群时,找不到ZooKeeper组件如何处理? 购买MRS集群提交订单时报无效认证如何处理?
LTS版集群时使用该计费项。 MRS专属集群管理服务费:专属区域购买MRS集群时使用该计费项,相关操作请参见创建专属云MRS集群。 IES边缘小站MRS集群服务费:在智能边缘小站 IES可用区购买MRS集群时使用该计费项。 包年/包月、按需计费 核个数 * 节点个数 * 核规格单价 * 购买时长 MRS服务
ClickHouse性能调优 数据表报错Too many parts解决方法 加速Merge操作 加速TTL操作 父主题: 使用ClickHouse
通过打印HiveServer进程jstack,查看相关线程是否卡顿在访问HDFS部分,是的话则表示访问HDFS变慢。 方法三: 查看HDFS RPC监控,看是否在SQL运行变慢期间HDFS RPC异常升高,是的话则大概率是访问HDFS变慢。 访问Yarn变慢 查看HiveServer运行日
3.1.5.0.3 及之后的补丁版本中diskmgt服务会检测EVS磁盘(受diskmgt服务监控的磁盘)容量是否增加,如果有增加将则会进行该磁盘下分区(单个分区独占磁盘容量)容量和文件系统的扩容,达到自动扩充磁盘分区存储容量的能力。 安装完成后必须的手动操作 MRS 3.1.5.0
Manager增加大数据服务滚动重启能力 MRS Manager新增文件句柄数量监控 MRS Manager新增大数据组件发生重启事件上报 MRS 镜像 解决ECS VNC登录不停打印输出问题 解决操作系统日志转储配置问题 MRS 1.7.1.3 修复问题列表: MRS Manager新增运维通道功能。
ZooKeeper连接断开 告警解释 系统每分钟检测一次ClickHouse和ZooKeeper的连接情况,如果检测连接失败,系统产生告警(告警原因为ZooKeeper连接异常)。如果连续3次检测连接失败,系统产生告警(告警原因为ZooKeeper连接断开)。 当系统检测到有一次连接成功,告警自动清除。
支持可视化定义流作业和批作业。 支持作业资源、故障恢复策略、Checkpoint策略可视化配置。 流作业和批作业的状态监控。 Flink作业运维能力增强,包括原生监控页面跳转。 性能&可靠性 流处理支持24小时窗口聚合计算,毫秒级性能。 批处理支持90天窗口聚合计算,分钟级计算完成。
防止因HBase的系统表目录或者文件损坏导致HBase服务不可用,或者系统管理员需要对HBase系统表进行重大操作(如升级或迁移等)时,需要对HBase元数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight
ALM-19033 RegionServer的RPC读队列数超过阈值 告警解释 系统每30秒周期性检测每个HBase服务的RegionServer实例的RPC读队列待处理任务个数,当检测到某个RegionServer上的RPC读队列待处理任务个数连续10次超出阈值时产生该告警。
产生告警的服务名称。 服务目录 产生告警的目录名称。 角色名 产生告警的角色名称。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 向ZooKeeper数据目录空间写入大量数据,导致ZooKeeper无法对外正常提供服务,导致依赖告警目录的
修复问题列表: MRS Manager 解决安装补丁后扩容会导致capacity-schedule.xml中新增的队列配置丢失问题 回退全链路监控 大数据组件 解决spark操作hive赋权失败问题 解决不指定队列,默认提交到launcher-job队列,影响任务正常运行问题 MRS
息,可能导致系统崩溃。 ERROR ERROR表示当前事件处理出现错误信息,系统运行出错。 WARN WARN表示当前事件处理存在异常信息,但认为是正常范围,不会导致系统出错。 INFO INFO表示系统及各事件正常运行状态信息。 DEBUG DEBUG表示系统及系统的调试信息。
息,可能导致系统崩溃。 ERROR ERROR表示当前事件处理出现错误信息,系统运行出错。 WARN WARN表示当前事件处理存在异常信息,但认为是正常范围,不会导致系统出错。 INFO INFO表示系统及各事件正常运行状态信息。 DEBUG DEBUG表示系统及系统的调试信息。
ALM-12084 ommdba密码过期 告警解释 系统每天零点开始,每8小时检测当前系统中ommdba密码是否过期,如果过期,则发送告警。 当系统中ommdba密码过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12084 重要 是 告警参数
ALM-19013 region处在RIT状态的时长超过阈值 告警解释 系统按300秒周期性检测HBase上的region处在RIT状态的数量。当检测到处在RIT状态的region时长超过阈值时长(连续两次超过阈值),上报该告警。当处在超时状态的region都恢复后,告警恢复。 告警属性
1 发布时间 2020-07-06 解决的问题 MRS 2.0.6.1 修复问题列表: MRS Manager 优化补丁机制 解决偶现获取监控指标为空的问题 解决DLF+Presto查询时字段中包含换行符,数据和文件显示问题。 补丁兼容关系 无 安装补丁的影响 安装MRS 2.0
用户的连接数状况。 观察当前告警用户的实时连接数情况,确认当前用户的实时监控数据是否存在。 是,执行4。 否,说明当前用户已经断开所有连接,则手动清除告警,操作结束。 当告警用户断开所有连接之后,该用户的监控数据会消失,此时无法自动清除告警,需要手动清除。 确认该告警的用户是否为业务侧允许的合法用户。