检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
安装GPU指标集成插件 通过在GPU加速型Linux实例上安装GPU监控插件,可以为用户提供系统级、主动式、细颗粒度的GPU监控,包含GPU指标收集和GPU系统事件上报。GPU支持监控的指标,参见GPU指标。 本章节介绍如何通过CES监控Agent安装脚本为GPU加速型实例安装新版GPU监控插件:
同的监控需求。 操作步骤 登录管理控制台。 单击“服务列表 > 云监控服务”。 选择“我的看板 > 自定义监控看板”,单击“创建看板”。 系统弹出“创建看板”窗口。 配置参数。 名称:表示监控看板名称,该参数只能由中文、英文字母、数字、下划线、中划线组成,且长度不超过128。 归
我的配额”。 系统进入“服务配额”页面。 图1 我的配额 您可以在“服务配额”页面,查看各项资源的总配额及使用情况。 如果当前配额不能满足业务要求,请参考后续操作,申请扩大配额。 如何申请扩大配额? 登录管理控制台。 在页面右上角,选择“资源 > 我的配额”。 系统进入“服务配额”页面。
支持GPU监控的环境约束 仅支持Linux操作系统,且仅部分Linux公共镜像版本支持GPU监控,详情见:Agent支持的系统有哪些? 支持的规格:G6v、G6、P2s、P2v、P2vs、G5、Pi2、Pi1、P1系列的ECS,P、Pi、G、KP系列的BMS。 已安装lspci工
控指标。当您在云平台上开通云服务后,系统会根据服务类型自动关联该服务的监控指标,帮助您实时掌握云服务的各项性能指标,精确掌握云服务的运行情况。 本章节指导用户如何查看云服务资源的监控数据,若发现有异常时可以及时处理。 支持企业项目的服务,系统默认展示用户拥有权限的企业项目的主机资源列表。
站点的访问情况。 操作步骤 登录管理控制台。 单击“服务列表 > 云监控服务”。 单击左侧导航栏的“站点监控”。 进入“站点监控”界面。 系统展示用户当前所有站点概况。包括站点名称、站点地址、探测类型、监控频率、可用探测点百分比、平均响应时间等。 单击站点名称所在行的“查看监控图表”。
事件即云监控保存并监控的云服务资源的关键操作。您可以通过“事件”了解到谁在什么时间对系统哪些资源做了什么操作,如删除虚拟机、重启虚拟机等。 事件监控默认开通,您可以在事件监控中查看系统事件和自定义事件的监控详情,目前支持的系统事件请参见事件监控支持的事件说明。 事件监控为您提供上报自定义事件的接
(Windows):暂不支持。 % 2.5.6 1分钟 操作系统监控指标: 文件系统 指标 指标名称 指标说明 单位 支持版本 监控周期(原始指标) disk_fs_rwstate (Agent)文件系统读写状态 该指标用于统计测量对象挂载文件系统的读写状态。状态分为:可读写(0)/只读(1)。
Cloud Eye自定义策略 如果系统预置的云监控服务权限,不满足您的授权要求,可以创建自定义策略。自定义策略中可以添加的授权项(Action)请参考《CES API参考》中“策略及授权项说明” 章节。 目前华为云支持以下两种方式创建自定义策略: 可视化视图创建自定义策略:无需了
ECS SYS.ECS 因系统故障触发重部署 startAutoRecovery 重要 弹性云服务器所在的主机出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,迁移过程中系统会自动重启云服务器。 等待虚拟机迁移成功,状态恢复正常。 实例重部署开始。 因系统故障重部署已完成 endAutoRecovery
有视图的监控周期,其中“近1小时”以内的监控时长系统默认显示原始指标数据,其他时长周期默认显示聚合指标数据。 您还可以进入监控大屏查看监控视图,请参考大屏查询模式使用技巧。 在监控视图右上角,单击,进入监控项详情页面。您可以选择系统提供的固定时长或自定义时间段来查看云服务的监控周期内的走势图。
扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性,并且使用云监控的事件监控功能对服务器运行异常及自动恢复进行监控,订阅事件告警同步进行业务处理。 表1 ECS重点事件 事件名称 事件说明 处理步骤 因硬件故障触发重启 弹性云服务器所在的主机出现故障时,系统会自动将
告警级别。默认为2,级别为1、2、3、4。分别对应紧急、重要、次要、提示。 alarm_type 否 String 告警类型。支持的枚举类型: EVENT.SYS:针对系统事件的告警规则。 EVENT.CUSTOM:针对自定义事件的告警规则。 RESOURCE_GROUP:针对资源分组的告警规则。 alarm_actions
登录管理控制台。 单击“服务列表 > 云监控服务”。 单击左侧导航栏的“主机监控 > 弹性云服务器”。 单击需要查看资源详情的监控名称,进入“操作系统监控”界面。 单击右上角“查看资源详情”,弹出“查看资源详情”窗口。 可查看该监控的实例名称、实例ID、资源分组情况。 父主题: 主机监控
Agent插件资源占用和熔断说明 资源占用 Agent占用的系统资源很小,CPU单核使用率最大不超过10%、内存最大不超过200M。一般情况下,CPU单核使用率<5%,内存<100M。 熔断 Agent的CPU单核利用率大于10%,或者内存使用超过200M,且连续发生三次。为了保
默认值:事件 事件类型 用于指定事件类型,可选择系统事件或自定义事件。 事件来源 事件来源的云服务名称。 取值样例:弹性云服务器 对于自定义事件,事件来源配置为自定义事件时的event_source。 触发规则 选择配置告警策略的方式。当事件类型选择系统事件时,支持选择关联模板和自定义创建两
Agent插件状态显示“故障”该如何处理? 操作系统监控插件每1分钟发送1次心跳;当服务端3分钟收不到插件心跳时,“插件状态”显示为“故障”。 “故障”原因可能为: Agent域名无法解析,请先确认修改DNS与添加安全组中DNS地址配置正确,然后参考《云监控服务用户指南》中“手动配置Agent”章节检查配置是否正确。
当老架构的Agent不满足使用需求时,可以对Agent进行升级。云监控插件将不断升级版本,以便给您带来更好的监控体验。本章节主要介绍如何在Windows操作系统上将老架构的Agent升级到新架构Agent。 约束限制 不支持局点:华南-广州-友好用户环境、拉美-圣保罗一、拉美-墨西哥城一。 操作步骤
单击“服务列表 > 云监控服务”。 单击业务左侧导航栏的“事件监控”。 进入“事件监控”页面。在“事件监控”页面,默认展示近24小时的所有系统事件。 您也可以根据需要选择“近1小时”“近3小时”“近12小时”“近24小时”“近7天”“近30天”,分别查看不同时段的事件。 图1 事件监控
否 事件类型,值为EVENT.SYS或EVENT.CUSTOM。EVENT.SYS表示系统事件,EVENT.CUSTOM表示自定义事件。 event_name String 否 事件名称,值为系统产生的事件名称或用户自定义上报的事件名称。 from Integer 否 查询数据起始