检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
etric 采集CCE集群的业务数据 通过新增PodMonitor方式为应用配置可观测监控Prometheus版的采集规则,监控部署在CCE集群内的应用的业务数据。 如下示例中指标采集的周期是30秒,所以等待大概30秒后才能在AOM的界面上查看到上报的指标。 apiVersion:
etric 采集CCE集群的业务数据 通过新增PodMonitor方式为应用配置可观测监控Prometheus版的采集规则,监控部署在CCE集群内的应用的业务数据。 如下示例中指标采集的周期是30秒,所以等待大概30秒后才能在AOM的界面上查看到上报的指标。 apiVersion:
实例列表”,在实例列表中单击已创建的Prometheus实例的实例名称。 在实例详情页面左侧导航栏选择“设置”页签,获取当前实例的服务地址。 下面的操作以获取CCE类型Prometheus实例的服务地址为例说明。 单击“内网”或“公网”页签,可以获取对应“内网”或“公网”下的Remote Read和Remote
与AOM 1.0对比 AOM 2.0基于AOM 1.0原有功能,结合用户常用的应用监控,增加了多种指标和日志数据的采集与监控,并对监控结果可视化呈现。同时,通过自动化运维功能将日常运维操作服务化、自动化,减少运维人员重复性操作。 本章节主要对比AOM 2.0与AOM 1.0版本的功能特性。
AOM与CES的云服务监控功能对比 本章节主要对比AOM 2.0的云服务监控与CES的云服务监控功能差异。 AOM的指标数据来源于CES。AOM的指标数据为Prometheus格式,CES为自定义格式。AOM与CES的云服务监控功能对比如表1所示。 表1 AOM的云服务监控与CES的云服务监控功能对比
String 对当前节点的操作:失败重试,失败跳过,暂停继续。 restart可重新执行失败的节点,skip可跳过失败的节点进入下个节点的执行,continue可通过暂停节点进入下一个节点。 最小长度:1 最大长度:10 枚举值: restart skip continue node_id
该主机无法解析obs域名,导致无法下载UniAgent的安装脚本。 解决办法 指导用户为Linux系统的ECS主机配置DNS域名解析,并添加安全组,以解决下载UniAgent安装脚本出现域名无法解析问题。 修改ECS主机的DNS配置有两种方式:命令行和管理控制台;您可以根据自己的使用习惯选择其中一种方式进行配置。
通过ICAgent上报的虚机指标的指标维度 表1 通过ICAgent上报的虚机指标的指标维度 指标类别 指标维度 说明 网络指标 clusterId 集群ID。 hostID 主机ID。 nameSpace 集群的命名空间。 netDevice 网卡名称。 nodeIP 主机IP。 nodeName
tls_config: insecure_skip_verify: true bearer_token: '{access_code}' 参数说明: region_name为指定承载REST服务端点的服务器域名或IP,不同服务不同区域的名称不同,您可以从地区和终端节点中获取。例
若不一致,请修改配置使其保持一致。 图2 查看弹性云服务器的“虚拟私有云” 在弹性云服务器的“基本信息”页签单击“安全组”,在“安全组”的“出方向规则”页签中查看“协议端口”和“目的地址”的配置。 “协议端口”需要配置为“全部”,“目的地址”需要配置为“0.0.0.0/0”,如果不是,需要修改为对应取值。
http://{集群任意节点的公网IP}:30433/metrics,即可通过自定义的queries.yaml查询到Postgres实例启动时间指标。 图1 访问地址 添加采集任务 通过新增PodMonitor方式为应用配置可观测监控Prometheus版的采集规则,监控部署在CCE集群内的应用的业务数据。
AOM支持的四层指标体系 类型 来源 指标举例 如何接入 业务层指标 通常来源于端侧日志SDK、提取的ELB日志。 访问UV、访问PV、访问延时、访问失败率、访问流量情况等 接入业务层指标 通常来源于事务监控或上报的自定义指标。 URL的调用次数、URL的最大并发数、URL的最大响应时间等
http://{集群任意节点的公网IP}:30433/metrics,即可通过自定义的queries.yaml查询到Postgres实例启动时间指标。 图1 访问地址 添加采集任务 通过新增PodMonitor方式为应用配置可观测监控Prometheus版的采集规则,监控部署在CCE集群内的应用的业务数据。
此处日志转储是指日志的本地绕接。 设置:AOM每分钟扫描一次日志文件,当某个日志文件超过50MB时,会立即对其转储(转储时会在该日志文件所在的目录下生成一个新的zip文件。对于一个日志文件,AOM只保留最近生成的20个zip文件,当zip文件超过20个时,时间较早的zip文件会被删除),转储完成后AOM会将该日志文件清空。
对业务的有效支撑,保护、优化IT资产投资,使企业更好的达到其战略目标并实现IT资产价值的最大化。通过云审计服务,您可以记录与AOM服务相关的操作事件,便于日后的查询、审计和回溯。 资源类型为pe的事件,其实际执行服务为AOM,但操作入口位于云容器引擎(CCE)或应用管理与运维平台(ServiceStage)。
在工作负载列表中“无状态负载”页签下,单击3.b创建的无状态工作负载的名称,在实例列表中单击操作列下的“更多 > 日志”,可以查看到Exporter成功启动并暴露对应的访问地址。 图3 查看日志 验证。有以下三种方法进行验证: 登录集群节点执行如下任意一种命令: curl http://{集群IP}:9104/metrics
在工作负载列表中“无状态负载”页签下,单击3.b创建的无状态工作负载的名称,在实例列表中单击操作列下的“更多 > 日志”,可以查看到Exporter成功启动并暴露对应的访问地址。 图3 查看日志 验证。有以下三种方法进行验证: 登录集群节点执行如下任意一种命令: curl http://{集群IP}:9104/metrics
配置告警行动规则:通过创建告警行动规则关联SMN主题与消息模板,当CCE的指标数据满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。 配置告警:通过创建告警规则对CCE的指标设置告警阈值条件,当指标数据满足设置的告警阈值条件时产生告警。 准备工作 本文以监控云容器引擎 CCE的指标为例,需要提前
0。 AOM 2.0与AOM 1.0的功能有哪些区别? AOM 2.0基于AOM 1.0原有功能,结合用户常用的应用监控,增加了多种指标和日志数据的采集与监控,并对监控结果可视化呈现。同时,通过自动化运维功能将日常运维操作服务化、自动化,减少运维人员重复性操作。详细的功能对比请参见AOM
nodeIP和podID计算指定node下指定pod当前使用的cpu使用率。 针对指标aom_node_cpu_limit_core,使用聚合函数sum,按照nodeIP计算出指定node的cpu总量。 两者均采用(by nodeIP)进行过滤,以使获得的指标值具有相同的指标维度。(仅value不同)