检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
若当前没有可选的Prometheus实例,可以创建Prometheus for ECS类型实例。 插件配置 操作系统 主机的操作系统,当前只支持选择Linux。 采集插件 默认MONGODB。 插件版本 选择插件的版本。 说明: 未上线的插件版本,则置灰,无法选择。
若当前没有可选的Prometheus实例,可以创建Prometheus for ECS类型实例。 插件配置 操作系统 主机的操作系统,当前只支持选择Linux。 采集插件 默认KAFKA。 插件版本 选择插件的版本。 说明: 未上线的插件版本,则置灰,无法选择。
图1 查看应用概览 表1 应用概览指标说明 类型 指标名称 说明 概览 url调用次数 URL的调用次数。 url平均响应时间 URL在采集周期内的平均响应时间。 url错误率 URL的错误率。 mysql错误率 MySQL的错误率。 redis错误率 Redis的错误率。
输入应用类型后,在“组件名称设置”下单击“添加命名项”,为已发现的进程设置组件名。例如,添加固定文字"app-test"拼接起来作为组件名。 应用类型用于标记应用的分类,仅用于规则分类和界面展示,可以填写任意字段。如按技术栈分类可写Java,Python。
选择接入类型。请根据您的需求选择“按命名空间接入”、“按工作负载接入”或“自动映射”。 按命名空间接入:将所选命名空间的全部日志接入到指定的日志流。 规则名称:自定义规则名称,只支持输入英文字母、数字、中划线、下划线以及小数点。 选择集群:在下拉框中选择已有集群。
选择资源:在“阈值名称”文本框中输入阈值规则名称,选择资源类型,在资源树上选择待监控的资源,单击“下一步”。 资源树上最多可选择100个资源。 当选择多个资源时,创建操作完成后,会创建多个单条阈值规则,每个资源对应一个单条阈值规则。
在左侧导航栏中选择“工作负载 ”,选择需要上报到AOM的工作负载类型。 在该工作负载对应的“操作”列中选择“更多 > 编辑YAML”。 在弹出的“编辑YAML”对话框中找到spec.template.metadata.annotations代码段。
过滤主机信息 在主机列表的表头,单击各列的,可按特定类型过滤显示主机的信息。 切换主机排序 在主机列表的表头,单击“UniAgent心跳时间”列的可切换主机的排序。
物理磁盘已使用总容量和物理磁盘总容量指标仅统计本地磁盘分区的文件系统类型,不统计主机通过网络形式挂载的文件系统(juicefs、nfs、smb等)。 表2 主机指标维度 维度 说明 clusterId 集群ID。 clusterName 集群名称。 gpuName GPU名称。
kind 应用类型。 nameSpace 集群的命名空间。 podID 实例ID。 podName 实例名称。 serviceID 存量ID。 gpuID GPU ID。 npuName NPU名称。 npuID NPU ID。 父主题: 指标总览
选择“规则类型”为“指标告警规则”。 选择指标配置方式为“全量指标”。 从下拉列表选择需要创建告警的Prometheus实例。 设置告警规则详情。具体的参数说明如表2所示。
为了方便查看,可以在主机列表上方设置运行状态、主机类型、主机名称、IP地址等过滤条件,实现主机列表过滤显示。 通过开启或关闭“隐藏控制节点”开关,自定义控制节点的展示与隐藏。系统默认隐藏控制节点。 单击“隐藏控制节点”后的,可同步主机信息。 在页面右上角设置主机信息的统计条件。
表1 功能说明 类别 说明 概览 以应用视角和容器视角提供常用服务或功能快速入口,实时监控并展示重点资源或应用数据。
选择“规则类型”为“指标告警规则”,“配置方式”为“按全量指标”。 设置指标、环境、检查频率等告警条件参数。 图2 设置告警规则详细信息 根据需要设置告警标签和告警标注信息,为告警匹配分组,后续可关联告警降噪策略来发送告警通知。
重复上面步骤,需要再购买1个终端节点,选择终端节点所在的区域,“服务类别”选择“云服务”,在“选择服务”下方查找并选择LTS的云服务,并且勾选“创建内网域名”,选择终端节点所在的虚拟私有云和子网,其他参数默认设置。 设置完成后,单击“立即购买”。
单击“安装ICAgent”,主机类型选择“华为云主机”,安装方式选择“获取AK/SK凭证”。 单击“复制命令”复制安装命令。 使用PuTTY等远程登录工具,以root用户登录待安装ICAgent的服务器,执行以下命令,在安装前关闭历史记录。
维度是指标的分类,每个指标都包含用于描述该指标的特定特征,可以将维度理解为这些特征的类别。图1以集群指标为例,介绍了命名空间、维度和指标的关系。 图1 集群指标 AOM的基础版和按需版所对应的指标存储时长及计费方式不同,详见收费详情。
在工作负载列表上方,可按负载类型和负载名称设置过滤条件,实现工作负载过滤显示。 单击右上角的,通过选中或取消选中各展示项后的单选框,自定义可选列的展示与隐藏。 单击工作负载名称,可查看工作负载的相关资源、告警、事件和仪表盘信息。
表1 API概览 类别 API 告警 告警相关API,包括新增、更新、删除事件类告警规则等接口。 监控 监控相关API,包括查询指标,查询、添加监控数据等接口。 Prometheus监控 prometheus监控相关API,包括区间数据查询、瞬时数据查询等接口。
图1 创建静默规则 表1 设置静默规则 类别 参数名称 说明 - 规则名称 静默规则的名称。名称只能由大小写字母、数字、下划线组成,且不能以下划线开头和结尾,最多不能超过100个字符。 描述 静默规则的描述。最多不能超过1024个字符。