检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
=自定义属性值”。 自定义属性:clusterId=ee-643f-XXXX-XXXX-XXXXXXX,即可查询出指定时间范围内自定义属性集群ID(clusterId)为ee-643f-XXXX-XXXX-XXXXXXX的相关事件。 您可参考表2执行如下操作: 表2 操作说明 操作
CloudService 参数 参数类型 描述 related_cloud_service String 关联的云服务。 related_cce_clusters Array of strings 关联的CCE集群。 related_prometheus_instances Array
行选择。您需要注意的是,下述两种安装方式,都不适用于容器节点(通过ServiceStage、CCE创建的集群容器节点)。容器节点不需要手动安装ICAgent,只需要在创建集群或部署应用时进行操作。 安装方式见表2: 表2 安装方式 方式 适用场景 首次安装 当满足以下条件时,您需要按照该方式安装:
(ksoftirqd/0) 1140 tuned Tue Oct 2 21:12:27 2018 /usr/bin/python -Es /usr/sbin/tuned -l -P 1144 sshd Tue Oct 2 21:12:27 2018
仪表盘中的图表 1个仪表盘中最多可添加20个图表。 仪表盘中图表可选资源、阈值规则、组件或主机的个数 1个曲线图中最多可添加100个资源,且资源可跨集群选择。 1个数字图最多可添加12个资源,只能展示1个资源,默认展示第一个资源。 1个阈值状态图表最多可添加10个阈值规则。 1个主机状态图表最多可添加10个主机。
基础指标:node-exporter指标 介绍通过中间件Exporter上报到AOM的node-exporter指标的类别、名称、含义等信息。 表1 CCE/自建K8s集群容器指标 Job名称 指标 指标含义 node-exporter node_filesystem_size_bytes 挂载的文件系统占用空间
仪表盘中的图表 1个仪表盘中最多可添加20个图表。 仪表盘中图表可选资源、阈值规则、组件或主机的个数 1个曲线图中最多可添加100个资源,且资源可跨集群选择。 1个数字图最多可添加12个资源,只能展示1个资源,默认展示第一个资源。 1个阈值状态图表最多可添加10个阈值规则。 1个主机状态图表最多可添加10个主机。
告警来源 事件类告警来源的服务名称,从现有的服务列表中选择。 触发对象 服务事件的筛选条件。从通知类型、事件名称、告警级别、自定义属性、命名空间、集群名称中选择一个或多个作为事件的过滤条件。 触发策略 事件类告警的触发策略。 累计触发:某个监控周期内达到累计次数则触发告警行动规则。 立即触发:满足筛选条件立即产生告警。
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
划线,且不能以中划线或下划线开头。 日志类型 默认选择ELB日志,且不允许修改。 应用 在下拉列表中选择已创建应用。 所属日志组 在下拉列表中选择已创建日志组。如果没有可用的日志组,可单击“ELB日志接入LTS”创建新的ELB接入日志组。 所属日志流 在下拉列表选择已创建日志流。
Prometheus监控功能提供的管理Prometheus数据采集和数据存储分析的逻辑单元。 Prometheus探针 部署在用户侧或者云产品侧Kubernetes集群。负责自动发现采集目标、采集指标和远程写到其他库。 Exporter 一个采集监控数据并通过Prometheus监控功能规范对外提供数据的组件。目前有上百个官方或者第三方
可用区(AZ,Availability Zone) 一个AZ是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 项目 华为云的区域默认对应一个项目,这个项目由
条进行处理,通过所有规则后,再发送通知。 2021-08-20 支持AOM日志接入LTS 通过添加接入规则,可以将AOM中的CCE或自定义集群的日志映射至LTS,通过LTS查看和分析日志。映射不会产生额外的费用(除重复映射外)。 2021-07-12 修改磁盘分区指标中指标名称。
设置告警规则详情 表2 告警规则填写说明 参数名称 填写说明 监控对象 服务事件的筛选条件。从通知类型、事件名称、告警级别、自定义属性、命名空间、集群名称中选择一个或多个作为事件的筛选条件。 说明: 设置“事件名称”作为筛选条件,未选择具体的事件名称时,系统默认按选择全部事件处理。 告警条件
应用管理用于管理云服务对象与应用之间的关系,遵循“应用 + 子应用(可选)+ 组件 + 环境”的应用管理模型,主要用于管理ECS、RDS和ELB等云服务资源。 创建应用 添加节点 添加环境 关联资源 图1 应用管理模型 父主题: 应用管理
后续新增的主机。 单击“添加”,完成配置。AOM会采集进程的指标数据。 等待大约两分钟后,您可在左侧导航栏中选择“监控 > 组件监控”,在集群下拉列表框中选择主机,找到已被监控的组件。 查看应用状态 在左侧导航栏中选择“监控 > 应用监控”。 单击应用名称查看应用下面相关资源与组件信息。
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
单击“操作”列下的“增加别名”进行增加。 添加标签 标签是组件的标识,通过标签您可区分系统组件和非系统组件,AOM默认为系统组件(系统组件包括icagent、css-defender、nvidia-driver-installer、nvidia-gpu-device-plugin、kube-dns、org
正常状态的工作负载,AOM界面显示异常是什么原因? 在AOM页面看到工作负载的状态显示异常,但是实际上在CCE页面看工作负载是正常的。 图1 查看工作负载状态 可能的原因如下: ICAgent的版本过低。 ICAgent当前需要用户主动升级的,但是过旧的ICAgent版本可能存在状态上报延迟导致显示异常的问题。