检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
均、求和或方差值的计算,并把结果汇总的过程。这个计算周期又叫聚合周期。 聚合是一个平滑的计算过程,聚合周期越长、平滑处理越多,用户对趋势的预测越准确;聚合周期越短,聚合后的数据对告警越准确。 云监控服务的聚合周期目前最小是5分钟,同时还有20分钟、1小时、4小时、1天,共5种聚合周期。
基本信息和SMART信息 包含盘的基本信息。(SN、型号、容量、协议类型、固件版本等),以及盘的SMART log中的各项指标(健康状态、温度、坏块计数、各类错误和失败计数等)。 使用smartctl -a <盘符>命令采集。 NVMe SSD 基本信息 包含NVMe盘的基本信息。(SN、型号、容量、固件版本等)
静态阈值:指告警触发规则设置成固定的阈值,如果指标达到设置的阈值,则触发告警。 动态阈值:指告警触发阈值是根据智能计算指标的历史数据预测指标的阈值,若实际值偏离预测值,则触发告警。 静态阈值 触发规则 根据需要可选择关联模板、导入已有模板或自定义创建。 说明: 选择关联模板后,所关联模板
新对接NAT网关服务。 主动监控新增监控指标。 2018-03-30 第二十次正式发布。 本次变更如下: 分布式缓存服务新增监控指标。 新对接预测服务。 新对接Elasticsearch服务。 主动监控新增GPU指标。 2018-02-28 第十九次正式发布。 本次变更如下: 人工智能服务新增监控指标。
创建告警规则词条优化。 新增事件监控功能。 主机监控界面改版。 2018-03-30 第二十一次正式发布。 本次变更如下: 分布式缓存服务新增监控指标。 新对接预测服务。 新对接Elasticsearch服务。 操作系统监控新增GPU指标。 新增资源分组功能。 新增日志监控功能。 2018-02-28
静态阈值:指告警触发规则设置成固定的阈值,如果指标达到设置的阈值,则触发告警。 动态阈值:指告警触发阈值是根据智能计算指标的历史数据预测指标的阈值,若实际值偏离预测值,则触发告警。 静态阈值 事件类型 当告警类型选择事件时,需要选择事件类型,可选择系统事件或自定义事件。 系统事件 事件来源
GPU卡数量少。 如果业务受损,请提交工单。 虚拟机GPU卡丢失。 GPU温度过高告警 highTemperatureEvent 重要 GPU硬件温度过高。 如果业务受损,请提交工单。 GPU温度超过温度阈值,可能会引起GPU卡性能下降。 FPGA链路故障 FPGALinkFault
GPU卡数量少。 如果业务受损,请提交工单。 虚拟机GPU卡丢失。 GPU温度过高告警 highTemperatureEvent 重要 GPU硬件温度过高。 如果业务受损,请提交工单。 GPU温度超过温度阈值,可能会引起GPU卡性能下降。 FPGA链路故障 FPGALinkFault
表示状态未知。 - 2.4.1 gpu_power_draw 该GPU的功率。 W 2.4.5 gpu_temperature 该GPU的温度。 °C 2.4.5 gpu_usage_gpu 该GPU的算力使用率。 % 2.4.1 gpu_usage_mem 该GPU的显存使用率。