检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
网络性能监控 广域网质量监控中探测点的分布有哪些? 父主题: 产品使用
安装GPU指标集成插件 通过在GPU加速型Linux实例上安装GPU监控插件,可以为用户提供系统级、主动式、细颗粒度的GPU监控,包含GPU指标收集和GPU系统事件上报。GPU支持监控的指标,参见GPU指标。 本章节介绍如何通过CES监控Agent安装脚本为GPU加速型实例安装新版GPU监控插件:
执行以下命令,查看安装结果。 lspci -d 10de: 图1 安装结果 GPU指标采集需要依赖以下驱动文件,请检查环境中对应的驱动文件是否存在。如果驱动未安装,可参见(推荐)GPU加速型实例自动安装GPU驱动(Linux)。 Linux驱动文件 nvmlUbuntuNvidiaLibraryPath
的查询。 图1 查看区域内网络性能 查看区域间网络性能 云网络互访性能支持查看华为云任意两个公网区域的互访时延性能数据。 登录管理控制台。 单击“服务列表 > 云监控服务”。 单击左侧导航栏的“网络性能监控 > 云网络互访性能”。 “区域间网络性能”页面,在“选择Region”下
主机监控Agent对主机的性能会有影响吗? 主机监控Agent占用的系统资源很小,性能基本不会受到影响。 在弹性云服务器中安装Agent资源占用情况如下: CPU单核使用率最大不超过10%、内存最大不超过200M。一般情况下,CPU单核使用率<5%,内存<100M。 在裸金属服务器中安装Agent资源占用情况如下:
2.6.4.1版本 基于2.6.4版本: 增加GPU指标。 增加NPU指标 增加物理机硬件监控能力。详情说明参考BMS硬件监控插件说明。 2.6.4版本 增加UDP连接总数指标。 2.5.6.1版本 基于2.5.6版本: 增加GPU指标。 增加物理机硬件监控能力。详情说明参考BMS硬件监控插件说明。
云监控服务基于云服务自身的服务属性,已经内置了详细全面的监控指标。当您在云平台上开通云服务后,系统会根据服务类型自动关联该服务的监控指标,帮助您实时掌握云服务的各项性能指标,精确掌握云服务的运行情况。 本章节指导用户如何查看云服务资源的监控数据,若发现有异常时可以及时处理。 支持企业项目的服务,系统默认展
2.4.5 gpu_temperature 该GPU的温度。 °C 2.4.5 gpu_usage_gpu 该GPU的算力使用率。 % 2.4.1 gpu_usage_mem 该GPU的显存使用率。 % 2.4.1 gpu_used_mem 该GPU的显存使用量。 MB 2.4.5
维度名称,枚举类型,类型有: mount_point:挂载点, disk:磁盘, proc:进程, gpu:显卡, raid: RAID控制器, 枚举值: mount_point disk proc gpu raid dim_value 否 String 维度值,32位字符串,如:2e8401
其他插件安装说明 BMS硬件监控插件说明 安装GPU指标集成插件 安装云专线指标采集插件 父主题: 云监控插件(Agent)
北京-北京-中国移动 吉林 长春 中国联通 吉林-长春-中国联通 中国移动 吉林-长春-中国移动 中国电信 吉林-长春-中国电信 父主题: 网络性能监控
一张看板里,为您定制一个立体化的监控平台。同时我的看板还支持在一个监控视图内对不同服务、不同维度的数据进行对比查看,帮助你实现不同云服务间性能数据对比查看的需求。 父主题: 监控看板(新版)
如果业务受损,请提交工单。 硬件问题导致GPU链路异常,驱动无法使用GPU。 虚拟机GPU丢卡告警 vmLostGpuAlarm 重要 虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 如果业务受损,请提交工单。 虚拟机GPU卡丢失。 GPU温度过高告警 highTemperatureEvent
Agent支持的系统有哪些? Agent插件资源占用和熔断说明 主机监控Agent对主机的性能会有影响吗? Agent不同插件状态说明及处理方式 Agent支持的指标列表 支持GPU监控的环境约束 BMS硬件监控指标采集说明 什么是插件修复配置? 怎样让新购ECS实例中带有操作系统监控功能?
公网时延体验馆 公网时延体验馆是一个全面的华为云各区域到全球各地互联网网络访问时延性能分析展示的界面,旨在帮助用户根据自身业务服务的区域来评估到各区域性能和网络状况,从而帮助用户决定最优的部署方案。 公网时延体验馆展示了华为云全球各大区和各区域的概况,在公网时延体验馆中,将全球局
弹性云服务器事件 弹性云服务器是作为一种可随时获取、弹性可扩展的计算服务器。在各业务中,弹性云服务器作核心基础,细微的性能变化,运行异常及自动恢复,都可能会引起云服务上的业务受到大幅震荡。 因此需使用弹性负载均衡将访问流量根据转发策略分发到后端多台弹性云服务器,通过流量分发扩展应
警,并收到服务故障信息。 前提条件 已创建广域网质量监控任务。 操作步骤 登录管理控制台。 单击“服务列表 > 云监控服务”。 选择“网络性能监控 > 广域网质量监控”。 在“监控任务”页面,单击监控任务所在行的“创建告警规则”。 在“创建告警规则”界面,根据界面提示配置参数。 根据界面提示,配置告警规则基本信息。
如果业务受损,请提交工单。 硬件问题导致GPU链路异常,驱动无法使用GPU。 虚拟机GPU丢卡告警 vmLostGpuAlarm 重要 虚拟机实际有的GPU卡数量比规格里应分配的GPU卡数量少。 如果业务受损,请提交工单。 虚拟机GPU卡丢失。 GPU温度过高告警 highTemperatureEvent
第六十四次正式发布: 新增BMS硬件监控插件说明章节。 下线安装GPU ECC监控插件(Linux)章节。 2023-08-21 第六十三次正式发布: 更新Agent版本特性章节。 优化Agent安装说明章节。 下线一键配置插件说明章节。 下线安装GPU指标与RAID指标采集插件采集插件(Linux)章节。
创建站点监控 本章节指导用户创建站点监控,通过对站点进行网络探测,实现网络质量分析、性能分析等目的。 约束与限制 一个账户最多创建20个站点监控。 操作步骤 登录管理控制台。 单击“服务列表 > 云监控服务”。 在“站点监控”界面,单击右上角“创建站点监控”,进入“创建站点监控”界面。