检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
API 告警 监控 prometheus监控 日志 Prometheus实例 配置管理 UniAgent管理 仪表盘 应用资源管理(aom2.0接口) 自动化运维(aom2.0接口)
执行脚本任务失败,提示 :agent not found 问题现象 在ECS执行脚本任务时失败,系统提示“agent not found”。 可能原因 没有正确安装UniAgent。 UniAgent为非“运行中”状态。 解决方法 检查UniAgent的状态,UniAgent状态有运行中、异常、安装中
网络指标及其维度 磁盘指标及其维度 磁盘分区指标 文件系统指标及其维度 主机指标及其维度 集群指标及其维度 容器组件指标及其维度 虚机组件指标及其维度 实例指标及其维度 服务指标及其维度
查询时间序列 场景描述 本章以查询一个节点的CPU使用率时间序列为例。 涉及的基本信息 查询时间序列前,需要确定节点的ID和集群ID的值,节点ID值可以在ECS的dimensions中查看,集群ID值可以在CCE的“集群管理”页面,基本信息的dimensions中查看。 CPU使用
计费FAQ 常见计费问题 日志费用说明 接入Prometheus后,为什么会产生额外费用?
查看场景分类 在场景分类页面自动化运维已定义了服务场景的类型,具体如下: 故障处理 日常巡检 软件部署 云服务场景 通用场景 父主题: 运维配置
已为主题添加相关的订阅者,即通知的接收人(例如:邮件或短信),操作详见订阅主题。 注意事项 您最多可创建1000个告警行动规则,如果告警行动规则数量已达上限1000时,请删除不需要的行动规则。 操作步骤 在左侧导航栏中选择“告警 > 告警行动规则”,单击左上角的“创建告警行动规则”。
查询时序数据 场景描述 本章以查询一个节点的CPU使用率时序数据为例。 涉及的基本信息 查询时序数据前,需要确定节点的ID和集群ID的值,节点ID值可以在ECS的dimensions中查看,集群ID值可以在CCE的“集群管理”页面,基本信息的dimensions中查看。 因指标格式
} else { fmt.Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 请求响应成功,返回执行方案列表。 400 BadRe
日志数据,帮助用户全面、深入地掌握监控数据。 创建AOM仪表盘(新版) 通过仪表盘可将不同图表展示到同一个屏幕上,通过不同的仪表形式来展示资源的指标数据或日志数据,帮助用户全面、深入地掌握监控数据。 设置AOM仪表盘全屏模式在线时长 使用AOM的仪表盘全屏模式进行监控时,全屏模式
u_usage) 该指标用于统计测量对象的CPU使用率。服务实际使用的与限制的CPU核数量比率。 0~100 百分比(%) 磁盘读取速率(aom_container_disk_read_kilobytes) 该指标用于统计每秒从磁盘读出的数据量。 ≥0 千字节/秒(kB/s) 磁
AOM服务提供了多种可靠性容灾能力,可以通过AZ内实例容灾、多AZ容灾、多集群容灾、数据多副本等技术方案,保障服务的持久性和可靠性。 表1 AOM服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,AOM实例通过多实例方式实现实例容灾,快速剔除故障节点,保障实例持续提供服务。 多AZ容灾
告警模板是一组以云服务为单位的告警规则组合,通过告警模板用户可对同一个云服务下的多个指标批量创建阈值告警规则、事件告警规则和PromQL告警规则。 约束与限制 系统支持创建的指标告警规则、事件告警规则、应用性能监控告警规则总计不能超过3000条。如果系统中的告警规则数量已达到上限,请删除不需要的告警规则后重新创建。
日志相关API,包括查询日志接口。 Prometheus实例 Prometheus实例相关API,包括新增、查询Prometheus实例、卸载托管Prometheus实例等接口。 配置管理 配置相关API,包括查询aom2.0相关云服务授权信息和查询集群主机安装的ICAgent信息接口。 UniAgent管理
AOM服务提供了多种可靠性容灾能力,可以通过AZ内实例容灾、多AZ容灾、多集群容灾、数据多副本等技术方案,保障服务的持久性和可靠性。 表1 AOM服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,AOM实例通过多实例方式实现实例容灾,快速剔除故障节点,保障实例持续提供服务。 多AZ容灾
2(20%),可能有如下情况: 在整个时间间隔内,有20%的SM的Tensor Core以100%的利用率运行。 在整个时间间隔内,有100%的SM的Tensor Core以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core以100%利用率运行。 其他组合模式。
概述 AOM提供告警行动规则定制功能,当资源或指标数据满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。 通过创建告警行动规则关联SMN主题与消息模板。 通过创建消息模板,自定义通知消息配置。 告警行动规则创建成功后,可在“告警> 告警降噪> 分组规则”中“创建分组规则”关联行动规则。
运维管理 运维管理概述 开通自动化运维 自动化运维权限管理 服务场景 管理定时运维 管理任务 配置参数库 管理作业 管理脚本 管理文件 运维配置 管理工具市场 高危命令说明
企业项目id。获取方式请参见:获取企业项目ID。 删除单个企业项目下实例,填写企业项目id。 不填时,默认删除企业项目id为0的企业项目下实例。 响应参数 无 请求示例 删除仪表盘id为2439f2c7--43eb--cd1b****8b2e的仪表盘 https://{Endpoint}/v2/
监控总览 监控概览 仪表盘