检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建主机监控的告警通知 当您需要监控各云产品资源的使用情况时,可以创建告警规则并配置告警通知。如果资源的监控指标触发设定的阈值,云监控服务会在第一时间通过消息通知服务实时告知您云上资源异常,以免因此造成业务损失。本章节指导用户对ECS或BMS的监控指标创建告警规则。 操作步骤 登录管理控制台。
标识任何东西。 错误码说明 当您调用API时,如果遇到“APIGW”开头的错误码,请参见API网关错误码进行处理。 模块 http状态码 错误码 错误码说明 Error Message 描述(处理措施) Cloud Eye通用 500 ces.0007 内部错误 Internal
云监控服务统计的弹性云服务器网络流量与云主机系统内工具检测不一致的问题 因为云监控服务与弹性云服务器系统内指标检测软件的采样周期不同。 云监控服务对弹性云服务器、云硬盘的采样周期是4分钟(云服务器类型为KVM的是5分钟),而系统内工具的采样周期一般为1秒,远远小于云监控服务的采样周期。
查看主机监控的监控指标 本章节指导用户查看主机监控指标,监控指标分为Agent插件采集的细颗粒度的操作系统级别监控指标和ECS自带的监控指标。 操作系统监控指标和基础监控指标请参见云产品监控指标。 前提条件 已完成Agent插件的安装。安装请参考安装配置Agent进行安装。 操作步骤
主机监控 ECS是电商平台的基础支撑,因此ECS上细微的性能变化,都可能会引起电商业务的大幅震荡,甚至出现宕机,引起巨大损失。 主机监控提供了包括基础监控和操作系统监控两种不同监控粒度层次的监控。基础监控为ECS自动上报的监控指标,操作系统监控通过在ECS中安装Agent插件,为
"count" : 10 } 状态码 状态码 描述 200 查询成功 400 参数校验失败 404 资源不存在 500 系统内部错误 错误码 请参见错误码。 父主题: 指标管理
查看主机监控的资源详情 操作步骤 登录管理控制台。 单击“服务列表 > 云监控服务”。 单击左侧导航栏的“主机监控 > 弹性云服务器”。 单击需要查看资源详情的监控名称,进入“操作系统监控”界面。 单击右上角“查看资源详情”,弹出“查看资源详情”窗口。 可查看该监控的实例名称、实例ID、资源分组情况。
主机监控Agent对主机的性能会有影响吗? 主机监控Agent占用的系统资源很小,性能基本不会受到影响。 在弹性云服务器中安装Agent资源占用情况如下: CPU单核使用率最大不超过10%、内存最大不超过200M。一般情况下,CPU单核使用率<5%,内存<100M。 在裸金属服务器中安装Agent资源占用情况如下:
登录管理控制台。 单击“服务列表 > 云监控服务”。 单击页面左侧的“主机监控”,进入主机监控页面。 此时页面上显示了当前云平台上的弹性云服务器列表。 单击ECS主机所在栏右侧的“更多 > 创建告警规则”。 弹出创建告警规则的窗口。 输入告警规则名称和描述。 按照如下所示配置参数。 触发规则:选择自定义创建。
String 用户project Token。用户Token也就是调用获取用户Token接口的响应值,该接口是唯一不需要认证的接口。请求响应成功后在响应消息头中包含的“X-Subject-Token”的值即为Token值。 最小长度:1 最大长度:16384 响应参数 状态码: 200 表4
如何获取Agent的Debug日志? 操作步骤 找到并且修改Agent日志配置文件,<ces>、<ces_new>如果都存在则都要修改,<ces>、<ces_new>如果只存在一个,可以只修改一个。 Linux: /usr/local/uniagent/extension/ins
如果上述修复方案失效,请参考GPU驱动不可用中的处理方法进行故障恢复。 GPU功能异常 NPU HBM多ECC错误信息 NpuHbmMultiEccInfo 提示 NPU卡存在HBM的ECC错误,此事件上报相应错误信息 这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 NPU功能可能异常
如果上述修复方案失效,请参考GPU驱动不可用中的处理方法进行故障恢复。 GPU功能异常 NPU HBM多ECC错误信息 NpuHbmMultiEccInfo 提示 NPU卡存在HBM的ECC错误,此事件上报相应错误信息 这是一个用于辅助其他事件进行判断的事件,无需单独定位处理 NPU功能可能异常
上报的指标被丢弃问题排查 问题现象 插件状态正常,查询指标出现断点的情况。 分析 可能的原因如下: Linux时间与实际时间差距较大,Agent采集的指标上报到服务端会认为是无效指标,导致上报的指标被丢弃。 修复方法(Linux) 使用root账号登录主机,确认当前主机ntp服务正常,然后执行以下命令:
监控数据中会出现跳点的情况 监控数据中可能会出现某段时间无监控数据情况,该现象非功能或者设计缺陷,云监控服务指标采集插件Agent采集时间以云服务器操作系统时间为准,当系统时间出现跳变时会造成"丢点"的假象(时间同步导致时间跳变),实际上采集点并未丢失。 父主题: 主机监控
等指标,详见云产品监控指标。 进程监控:针对主机内活跃进程进行的监控,默认采集活跃进程消耗的CPU、内存,以及打开的文件数量等信息。 目前支持Linux操作系统和Windows操作系统。支持的系统请参见Agent支持的系统有哪些?。 ECS规格建议Linux使用“2vCPUs |
对于需要导出监控数据的账号,要求具有IAM,CES,Config,EPS服务的读权限,另外获取哪些服务的监控数据就需要有哪些服务的读权限。 安装配置cloudeye-exporter 在Ubuntu ECS实例上安装cloudeye-exporter。 在github的cloudeye
Agent支持的系统有哪些? 以下列表中系统版本,是经过验证确定可以支持的系统版本,对于其余版本的支持情况,正在验证中。 以下系统都基于华为云IMS服务提供的公共镜像或者公共镜像创建的系统,如果使用未经验证的外部系统,可能会出现依赖问题或引入其他不稳定因素,请谨慎使用。 操作系统
net_tcp_sys_recv (Agent) TCP SYS_RECV状态的连接数量。 该指标用于统计测量对象服务器端收到的请求连接的TCP数量。 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI
支持GPU监控的环境约束 仅支持Linux操作系统,且仅部分Linux公共镜像版本支持GPU监控,详情见:Agent支持的系统有哪些? 支持的规格:G6v、G6、P2s、P2v、P2vs、G5、Pi2、Pi1、P1系列的ECS,P、Pi、G、KP系列的BMS。 已安装lspci工