检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用户提供服务器的系统级、主动式、细颗粒度监控服务。 进程监控:针对主机内活跃进程进行的监控,默认采集活跃进程消耗的CPU、内存,以及打开的文件数量等信息。 Agent访问声明:Agent安装后会采集主机监控数据上报到CES服务端;在您选择更新Agent软件包时会访问软件包仓库地址
5版本: GPU指标采集加固。 2.7.5版本 修复TCP连接数过多时cpu冲高bug,默认ss-s轻量采集TCP指标。 修复系统进程数指标和文件句柄总数指标值不刷新bug。 优化网卡指标采集逻辑,完善网卡名称维度值规则规则校验 2.7.2.1版本 基于2.7.2版本: 增加GPU指标。
监控数据原始文件是时间粒度的分片文件,文件中包含该时间分片下某一个资源下所有指标的监控数据,以Json格式存储。 为了方便用户使用,云监控服务为用户提供了格式转换以及内容拼接工具。使用该工具,用户可以把某一个特定资源下的若干个时间片的文件按照时间序列合并为一个按时间拼接的文件,文件格
nt/extension/install/telescope/bin 修改配置文件conf.json。 执行以下命令,打开配置文件conf.json。 vi conf.json 在conf.json文件中,添加如下四行参数,具体参数请参见表1。 表1 参数说明 参数 说明 cpu
创建ECS实例后,登录ECS,修改Agent配置文件(/usr/local/telescope/bin/conf.json)中的InstanceId为对应ECS的ID,即可完成复制流程,如图5所示。 图5 修改Agent配置文件 父主题: 主机监控
“故障”原因可能为: Agent域名无法解析,请先确认修改DNS与添加安全组中DNS地址配置正确,然后参考《云监控服务用户指南》中“手动配置Agent”章节检查配置是否正确。 账号欠费。 Agent进程故障,请参照管理Agent重启,如果无法重启则说明相关文件被误删,请重新安装Agent。
procGlobalMemoryStatusEx获取内存总量,通过GetProcessMemoryInfo获取内存已使用量,计算两者比值得到内存使用率。 打开文件数 进程消耗的打开文件数。 ≥ 0 测量对象:云服务器或裸金属服务器 通过执行ls -l /proc/pid/fd命令可以查看数量。 测量对象:云服务器或裸金属服务器
为“故障”。 Agent域名无法解析,请先确认修改DNS与添加安全组中DNS地址配置正确,然后参考《云监控服务用户指南》中“手动配置Agent”章节检查配置是否正确。 账号欠费。 Agent进程故障,请参照管理Agent重启,如果无法重启则说明相关文件被误删,请重新安装Agent。
因硬件故障触发重启”的事件,当迁移完成后,并发送一个“因硬件故障重启已完成”的事件,表示已恢复正常。 当收到该事件时,说明已发生故障,该机器无法使用,需要考虑更换弹性云服务器,或考虑将流量导至其他机器。 因硬件故障重启已完成 当收到该事件时,说明该ECS已正常工作,可继续使用。 操作步骤
lspci -d 10de: 图1 安装结果 GPU指标采集需要依赖以下驱动文件,请检查环境中对应的驱动文件是否存在。如果驱动未安装,可参见(推荐)GPU加速型实例自动安装GPU驱动(Linux)。 Linux驱动文件 nvmlUbuntuNvidiaLibraryPath = "/us
Agent域名无法解析,修复方法参考修改DNS与添加安全组(Linux)、修改DNS与添加安全组(Windows)。 账号欠费。 Agent进程故障,先尝试重启Agent,重启Agent方法参考管理Agent。如果重启后状态还是故障,可能Agent相关文件被破坏,请尝试重新安
API网关 云备份 SYS.CBR √ 配置审计或云备份 数据湖探索 SYS.DLI √ 配置审计&数据湖探索 弹性文件服务 SYS.SFS × 弹性文件服务 弹性文件服务 SFS Turbo SYS.EFS √ 配置审计 虚拟专用网络 SYS.VPN √ 配置审计 云数据迁移 SYS
start 若报障则说明已卸载Agent或者相关文件已被删除,请重新安装Agent。 Agent状态显示“已停止”(老版本) 请执行以下命令来启动Agent: service telescoped start 若报障则说明已卸载Agent或者相关文件已被删除,请重新安装Agent。 父主题:
"rg0123456789xxxx" ] } 状态码 状态码 描述 200 删除成功的资源分组ID列表 400 参数校验失败 401 未认证 403 认证鉴权失败 500 系统内部错误 错误码 请参见错误码。 父主题: 资源分组管理
start 若报障则说明已卸载Agent或者相关文件已被删除,请重新安装Agent。 Agent状态显示“已停止”(老版本) 请执行以下命令来启动Agent: service telescoped start 若报障则说明已卸载Agent或者相关文件已被删除,请重新安装Agent。 父主题:
主机监控 Agent状态切换或监控面板有断点该如何处理? 业务端口被Agent占用该如何处理? Agent一键修复失败问题排查 Agent一键修复后无监控数据问题排查 上报的指标被丢弃问题排查 Agent插件状态显示“故障”该如何处理? Agent插件状态显示“已停止”该如何处理?
企业项目的子用户无法看到一键告警功能 云监控服务的一键告警功能只有主账号或配置了Tenant Administrator权限的子用户才有权访问和使用。 如何为子账号设置Tenant Administrator权限,请参考创建用户组并授权。 父主题: 告警
instance_id:d9112af5-6913-4f3b-bd0a-3f96711e004d", "total": 7 } } 若请求失败,则会返回错误码及对应的错误信息说明,详细错误码信息请参考返回错误码说明。 创建告警规则。 发送“POST https://云监控的终端节点/V1
为什么配置了5分钟聚合指标告警规则,实际却无法触发告警? 问题现象 已经配置了CBR等服务的5分钟聚合指标告警规则,连续3次触发则告警。实际却无法触发告警。 问题分析 CBR服务每15分钟上报一条指标数据,切换cloudsense告警引擎的region,此类指标无法在连续的两个5分钟时间窗内达到阈值,
企业项目的子用户在配置告警规则时,无法选择全部资源 配置告警规则可选择全部资源的功能只有主账号或配置了Tenant Administrator权限的子用户才有权使用。 如何为子账号设置Tenant Administrator权限,请参考创建用户组并授权。 父主题: 告警