检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU:Ant系列机器动态路由配置错误 GpuRouteConfigError 重要 Ant系列机器网卡%s动态路由未配置或配置错误,CMD [ip route]: %s | CMD [ip route show table all]: %s。 请正确配置RoCE网卡路由 NPU网络通信异常
GPU:Ant系列机器动态路由配置错误 GpuRouteConfigError 重要 Ant系列机器网卡%s动态路由未配置或配置错误,CMD [ip route]: %s | CMD [ip route show table all]: %s。 请正确配置RoCE网卡路由 NPU网络通信异常
务发生异常,迅速处理故障,避免因资源问题造成业务损失。 配置云服务器全部挂载点告警规则 配置云服务器全部挂载点磁盘使用率告警规则 云监控服务提供了配置云服务器全部挂载点告警规则的能力。磁盘使用率指标调整为挂载点维度,在新配置磁盘使用率告警规则时需要选择“云服务器挂载点”维度。
主题订阅:通过在消息通知服务(SMN)配置的主题,快速将该消息推送至消息主题。 通知配置模块如下图所示。 通知策略模块如下图所示。 监控最核心的职责是帮助用户发现问题,而问题的发现是依赖监控系统中对告警规则的配置,告警规则配置的覆盖率、准确率将直接影响监控系统的故障发现率。 父主题: 告警配置方式
2017-09-30 第十三次正式发布。 本次变更如下: 新增人工智能服务监控指标。 新增弹性文件服务监控指标。 新增函数工作流服务监控指标。 新增查询主机配置数据。 2017-07-30 第十二次正式发布。 本次变更如下: 新增人工智能服务监控指标。 新增创建告警规则。 查询已关注指标标记为“已废弃”。
告警模板”,进入告警模板界面。 在“告警模板”界面,单击“创建自定义模板”。 在“创建自定义告警模板”界面,参考表1进行参数配置。 图1 创建自定义告警模板 表1 配置参数 参数 参数说明 名称 系统会随机产生一个模板名称,用户也可以进行修改。 取值样例:alarmTemplate-c6ft
Key:proc Value:进程 弹性云服务器操作系统监控的监控指标(安装Agent) 裸金属服务器 SERVICE.BMS Key:instance_id Value:云服务器ID 裸金属服务器操作系统监控的监控指标(安装Agent) 弹性伸缩 SYS.AS Key:AutoScalingGroup
如何配置委托? 为了更加安全高效的使用云监控服务提供的主机监控功能,我们提供了最新方式的Agent授权方法。在安装主机监控Agent前,仅需要一键式单击该区域的授权按钮或者在创建弹性云服务器页面勾选云监控Agent委托,则系统会自动对该区域下所有云服务器或裸金属服务器安装的Age
在“云服务监控”页面,勾选需要“配置数据存储”的云服务资源,单击“批量配置数据存储”,进入“批量配置数据存储”页面。 或在“主机监控”页面,勾选需要“配置数据存储”弹性云服务器,单击“批量配置数据存储”,进入“批量配置数据存储”页面。 在“配置数据存储”或“批量配置数据存储”页面,按照表1配置参数: 表1
告警配置方式 配置指标告警
行批量安装插件。 远程安装 必须有可用的安装机,且安装机与需要安装插件的主机在同一VPC组内,确保安装机与待安装主机间网络互通才可进行远程安装,远程安装当前仅支持Linux操作系统的主机。 手动安装 不支持一键安装的主机,首次安装时需要登录机器进行手动安装。 安装&升级插件、手动
Key:davp Value:DAVP 弹性云服务器操作系统监控的监控指标(安装Agent) 裸金属服务器 SERVICE.BMS Key:instance_id Value:云服务器ID 裸金属服务器操作系统监控的监控指标(安装Agent) 弹性伸缩 SYS.AS Key:AutoScalingGroup
配置监控视图 随着云上服务的业务日趋增长,用户对云监控服务的使用也日渐成熟,监控视图已添加的监控指标已经无法满足当前的监控需求,用户需要对监控视图中的监控指标进行修改、替换等操作。本章节指导用户如何实现在拆线图和条形图中完成监控指标的增加、修改、删除等日常操作。 曲线图的操作步骤
什么是插件修复配置? 安装Agent插件后,修复插件配置为用户提供了一键配置AK/SK、RegionID、ProjectId的功能,省去了繁琐的手动配置步骤,提升配置效率。 目前大部分区域已上线一键式授予该区域插件权限功能,即自动修复插件配置。您可以单击“主机监控 - 弹性云服务
查询主机配置数据 功能介绍 查询指定时间范围指定事件类型的主机配置数据,可以通过参数指定需要查询的数据维度。 该接口提供给HANA场景下SAP Monitor查询主机配置数据,其他场景下查不到主机配置数据。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API
Dashboards”,鼠标滑过需要修改的监控看板,在待配置的“监控视图”区域右上角单击“配置”图标,弹出“配置监控视图”页面。 在该页面,用户可以对监控视图标题进行编辑,也可以增加监控指标、删除监控指标或修改当前已添加的监控指标。 图1 配置监控视图 目前单个“监控视图”最多支持添加50个监控指标。
手动配置Agent(可选) 操作场景 用户成功安装Agent插件后,推荐您采用“修复插件配置”方式配置Agent。如果“修复插件配置”不成功或其他原因导致无法配置Agent,你可以采用本章节提供的手工方式配置Agent。 约束与限制 目前支持Linux操作系统和Windows操作
GPU驱动正常安装后,最多10分钟将在控制台看到采集到的GPU指标数据。 已安装lspci工具,未安装lspci工具的云服务器不支持采集GPU指标数据及上报事件。 安装lspci工具的方法,请参见安装lspci工具。 确保云服务器的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。
如何配置DNS和安全组? 本章节指导用户为Linux系统的主机添加域名解析并添加安全组,防止下载Agent安装包与采集监控数据时出现异常。本章节以ECS为例介绍如何修改DNS和添加安全组,其他主机步骤类似。 修改ECS的DNS配置有两种方式:命令行和管理控制台。您可以根据自己的使用习惯选择其中一种方式进行配置。
统。 前提条件 已完成云监控主机监控Agent的安装,请参考Linux系统。 已完成插件修复。 已获取待安装插件的弹性云服务器的root密码。 使用一键安装脚本配置插件 华为云部分区域支持使用一键安装脚本来配置插件,目前支持一键安装脚本的区域如表2所示。 使用root账号,登录ECS。