检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU:Ant系列机器动态路由配置错误 GpuRouteConfigError 重要 Ant系列机器网卡%s动态路由未配置或配置错误,CMD [ip route]: %s | CMD [ip route show table all]: %s。 请正确配置RoCE网卡路由 NPU网络通信异常
务发生异常,迅速处理故障,避免因资源问题造成业务损失。 配置云服务器全部挂载点告警规则 配置云服务器全部挂载点磁盘使用率告警规则 云监控服务提供了配置云服务器全部挂载点告警规则的能力。磁盘使用率指标调整为挂载点维度,在新配置磁盘使用率告警规则时需要选择“云服务器挂载点”维度。
主体订阅:通过在消息通知服务(SMN)配置的主题,快速将该消息推送至消息主题。 通知配置模块如下图所示。 通知策略模块如下图所示。 监控最核心的职责是帮助用户发现问题,而问题的发现是依赖监控系统中对告警规则的配置,告警规则配置的覆盖率、准确率将直接影响监控系统的故障发现率。 父主题: 告警配置方式
批量安装Agent 本章节主要介绍如何批量安装Agent,为用户提供主机的系统级、主动式、细颗粒度的监控服务。 约束与限制 批量安装不支持跨区域执行。 批量安装的主机需同属一个VPC。 Windows版本暂不支持批量安装Agent。 前提条件 已配置DNS和安全组,配置方法参考如何配置DNS和安全组?。
2017-09-30 第十三次正式发布。 本次变更如下: 新增人工智能服务监控指标。 新增弹性文件服务监控指标。 新增函数工作流服务监控指标。 新增查询主机配置数据。 2017-07-30 第十二次正式发布。 本次变更如下: 新增人工智能服务监控指标。 新增创建告警规则。 查询已关注指标标记为“已废弃”。
已配置DNS和安全组,配置方法参考如何配置DNS和安全组?。 已配置委托,配置方法参考如何配置委托?。 确保操作步骤中的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。 确保已下载Agent安装脚本,获取脚本的方式如下: 表1 获取Linux镜像的Agent安装脚本 区域 regionID
配置自定义看板 自定义看板作为云服务看板的补充,允许您可以通过自定义的方式创建可视化看板,您可以自主选择指标、图表类型来展现您关注的资源图表。 前提条件 请确保您拥有云监控服务的操作权限,并且可以创建自定义看板。 操作步骤 单击系统左侧主菜单“我的看板”,进入看板列表页面,单击“创建看板”创建您的看板。
第六十四次正式发布: 新增BMS硬件监控插件说明章节。 下线安装GPU ECC监控插件(Linux)章节。 2023-08-21 第六十三次正式发布: 更新Agent版本特性章节。 优化Agent安装说明章节。 下线一键配置插件说明章节。 下线安装GPU指标与RAID指标采集插件采集插件(Linux)章节。
安装&升级插件 已支持一键安装的主机资源,可在界面直接点击“安装&升级插件”按钮,系统将自动识别可以进行一键安装的所有主机,进行批量安装插件。 远程安装 必须有可用的安装机,且安装机与需要安装插件的主机在同一VPC组内,确保安装机与待安装主机间网络互通才可进行远程安装,远程安装当前仅支持Linux操作系统的主机。
前提条件 已完成云监控主机监控Agent的安装,请参考安装Agent(Linux)。 已完成插件修复。 已获取待安装插件的弹性云服务器的root密码。 使用一键安装脚本配置插件 华为云部分区域支持使用一键安装脚本来配置插件,目前支持一键安装脚本的区域如表2所示。 使用root账号,登录ECS。
告警模板”,进入告警模板界面。 在“告警模板”界面,单击“创建自定义模板”。 在“创建自定义告警模板”界面,参考表1进行参数配置。 图1 创建自定义告警模板 表1 配置参数 参数 参数说明 名称 系统会随机产生一个模板名称,用户也可以进行修改。 取值样例:alarmTemplate-c6ft
安装Agent(Linux) 在控制台界面安装/升级Agent 单台主机下安装Agent 批量安装Agent 父主题: Agent安装说明
在浏览器地址栏输入表1中的下载路径,下载并保存安装包。 进入安装包存放目录。 根据安装包的格式选择相应的操作方式进行插件安装。 若安装包为zip格式 如果安装包是telescope_windows_amd64.zip,解压zip安装包后双击执行“install.bat”脚本,安装启动Agent。 若安装包为exe格式
手动配置Agent(Linux,可选) 用户成功安装Agent插件后,推荐您采用“修复插件配置”方式配置Agent。如果修复插件配置不成功或其他原因,你可以采用本章节提供的手工方式配置Agent。 前提条件 已成功安装Agent插件。 确认正在使用的Agent版本 使用root账号,登录ECS。
手动配置Agent(Windows,可选) 用户成功安装Agent插件后,推荐您采用“修复插件配置”方式配置Agent。如果“修复插件配置”不成功或其他原因导致无法配置Agent,你可以采用本章节提供的手工方式配置Agent。 约束与限制 目前支持Linux操作系统和Window
GPU驱动正常安装后,最多10分钟将在控制台看到采集到的GPU指标数据。 已安装lspci工具,未安装lspci工具的云服务器不支持采集GPU指标数据及上报事件。 安装lspci工具的方法,请参见安装lspci工具。 确保云服务器的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。
Key:proc Value:进程 弹性云服务器操作系统监控的监控指标(安装Agent) 裸金属服务器 SERVICE.BMS Key:instance_id Value:云服务器ID 裸金属服务器操作系统监控的监控指标(安装Agent) 弹性伸缩 SYS.AS Key:AutoScalingGroup
Key:davp Value:DAVP 弹性云服务器操作系统监控的监控指标(安装Agent) 裸金属服务器 SERVICE.BMS Key:instance_id Value:云服务器ID 裸金属服务器操作系统监控的监控指标(安装Agent) 弹性伸缩 SYS.AS Key:AutoScalingGroup
告警配置方式 配置指标告警
“批量配置数据存储”页面。 或在“主机监控”页面,勾选需要“配置数据存储”弹性云服务器,单击“批量配置数据存储”,进入“批量配置数据存储”页面。 在“配置数据存储”或“批量配置数据存储”页面,按照表1配置参数: 表1 配置数据存储参数 参数 说明 样例 OBS转储 是否配置OBS转储,可选择“转储”和“不转储”。