检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
更新相关信息后,告警通知系统会自动发送到新的手机号码和新邮箱中。查询和更新电话号码的步骤如下: 登录管理控制台。 在管理控制台右上角的用户名下单击“基本信息”。 进入“账号中心”。 单击“手机号码”或“注册邮箱”后的“修改”。 根据页面提示完成手机号码或邮箱的修改。
GPU温度过高告警 highTemperatureEvent 重要 GPU硬件温度过高。 如果业务受损,请提交工单。 GPU温度超过温度阈值,可能会引起GPU卡性能下降 GPU NVLINK链路错误告警 nvlinkError 重要 NVLINK的链路出现硬件故障。
监控数据中会出现跳点的情况 监控数据中可能会出现某段时间无监控数据情况,该现象非功能或者设计缺陷,云监控服务指标采集插件Agent采集时间以云服务器操作系统时间为准,当系统时间出现跳变时会造成"丢点"的假象(时间同步导致时间跳变),实际上采集点并未丢失。 父主题: 主机监控
告警通知系统模板更新记录 云监控服务930版本将短信告警通知系统模板中的告警信息进行了修改,具体变更信息如表1 短信-指标系统通知模板、表2 短信-系统事件系统通知模板和表3 短信-自定义事件系统通知模板所示: 表1 短信-指标系统通知模板 信息 变更操作 告警恢复状态 新增 跳转连接
GPU温度过高告警 highTemperatureEvent 重要 GPU硬件温度过高。 如果业务受损,请提交工单。 GPU温度超过温度阈值,可能会引起GPU卡性能下降 GPU NVLINK链路错误告警 nvlinkError 重要 NVLINK的链路出现硬件故障。
使用hinicadm temperature -i <dev_id>命令采集。 HiNIC网卡事件记录 HiNIC网卡心跳丢失计数、PCIE异常计数、芯片错误计数、芯片健康状态等。 使用hinicadm event -i <dev_id>命令采集。
系统展示用户当前所有站点概况。包括站点名称、站点地址、探测类型、监控频率、可用探测点百分比、平均响应时间等。 单击站点名称所在行的“查看监控图表”。 进入“监控图表”页面。在此页面您可以根据需要查看该站点“近3小时”、“近12小时”和“近24小时”的监控原始数据曲线图。
单台主机下安装Agent 本章节主要介绍如何在单台主机中手动安装Agent,为用户提供主机的系统级、主动式、细颗粒度的监控服务。 约束与限制 目前只支持Linux操作系统和Windows操作系统。支持的系统请参见Agent支持的系统有哪些?。
怎样让新购ECS实例中带有操作系统监控功能? 操作场景 本章节指导用户如何让新购买的ECS实例带有操作系统监控功能。 制作的私有镜像不可跨Region使用,因为跨Region使用私有镜像创建的ECS实例无法取得监控数据。 前提条件 已有安装Agent的ECS实例。
云监控服务提供系统策略及操作与策略权限一览表,请参见:云监控服务系统策略。 图1 查看权限 父主题: 权限管理
弹性文件服务监控指标说明 云备份 SYS.CBR Key:instance_id Value:存储库名称/ID 云备份监控指标说明 云存储网关 SYS.CSG Key:gateway_id Value:网关ID 云存储网关监控指标说明 弹性文件服务Turbo SYS.EFS Key
× × × 云解析服务 DNS 记录集 √ √ √ √ √ 域名 √ √ √ √ √ 数据复制服务 DRS DRS运行实例 √ √ √ √ √ 数据仓库服务 DWS 数据仓库服务 √ √ √ √ √ 数据仓库节点 √ × × × × 数据仓库实例 √ × × × × 弹性文件服务Turbo
SYS.EFS Key:efs_instance_id Value:实例 SFS Turbo监控指标说明 网络 弹性公网IP和带宽 SYS.VPC Key:publicip_id Value:弹性公网IP ID Key:bandwidth_id Value:带宽ID 虚拟私有云的监控指标说明
在“操作系统监控”页面上方,分为CPU、内存、磁盘等不同类型的监控指标。 可查看不同监控指标的监控数据曲线图。其中,“近1小时”、“近3小时”、“近12小时”、“近24小时”以内的监控时长系统默认显示原始指标数据,“近7天”以上的监控时长系统默认显示聚合指标数据。
环境准备 以Ubuntu 18.04系统和Prometheus 2.14.0版本为例。
系统进入“服务配额”页面。 图1 我的配额 您可以在“服务配额”页面,查看各项资源的总配额及使用情况。 如果当前配额不能满足业务要求,请参考后续操作,申请扩大配额。 如何申请扩大配额? 登录管理控制台。 在页面右上角,选择“资源 > 我的配额”。 系统进入“服务配额”页面。
系统弹出“创建Dashboard”窗口。 配置参数。 名称:表示监控看板名称,该参数只能由中文、英文字母、数字、下划线、中划线组成,且长度不超过128。 归属企业项目:将监控看板关联给到某个企业项目时,只有拥有该企业项目权限的用户才可以查看和管理该监控看板。
云监控服务统计的弹性云服务器网络流量与云主机系统内工具检测不一致的问题 因为云监控服务与弹性云服务器系统内指标检测软件的采样周期不同。
“近1小时”、“近3小时”、“近12小时”、“近24小时”的监控数据:系统默认显示原始数据。您可以选单击页面左上方的“设置”选项,对监控数据的聚合周期进行更改。聚合周期请参考什么是聚合?。 “近7天”、“近30天”的监控数据:系统默认显示聚合后的数据。
图7 查看监控指标 图8 操作系统监控 进入指标详情页展示操作系统监控和基础监控,操作系统监控下展示的指标就是安装了Agent之后会展示出来的指标,如果操作系统监控为空,可以安装Agent成功之后再进行查看。