-
升级ICAgent - 应用运维管理 AOM
Agent版本。当Linux系统提示您有新的ICAgent版本时,您可以按照如下操作步骤进行升级。 登录AOM控制台,在左侧导航栏中选择“配置管理 > Agent管理”。 在页面右侧的下拉列表框中选择“集群:xxx”或“其他:用户自定义接入主机”。 升级ICAgent。如果在步骤
-
基础指标:Modelarts指标 - 应用运维管理 AOM
百分比(%) ma_container_gpu_enc_util GPU编码器利用率 表示编码器利用率 0~100 百分比(%) ma_container_gpu_dec_util GPU解码器利用率 表示解码器利用率 0~100 百分比(%) DCGM_FI_DEV_GPU_TEMP
-
容器组件指标及其维度 - 应用运维管理 AOM
该指标用于统计该内存workingset的使用量,即RSS内存和缓存的总和。 ≥0 兆字节(MB) 表2 容器指标维度 维度 说明 appID 服务ID。 appName 服务名称。 clusterId 集群ID。 clusterName 集群名称。 containerID 容器ID。 containerName
-
什么是应用运维管理 - 应用运维管理 AOM
什么是应用运维管理 运维遇到挑战 随着容器技术的普及,越来越多的企业通过微服务框架开发应用,业务实现更多使用云上服务,运维也转向云上的运维服务。对于云上应用的运维也提出了新的挑战。 图1 运维现有问题 运维人员技能要求高,配置繁杂,同时需要维护多套系统。对于分布式追踪系统,学习和使用成本高,并且稳定性差。
-
配置了阈值规则告警,却没收到邮件通知? - 应用运维管理 AOM
-
应用运维管理 AOM - 应用运维管理 AOM
nt是AOM的采集器,用于实时采集指标、日志和应用性能数据。 快速入门 使用流程 安装ICAgent 05 实践 提供典型场景的最佳实践操作指导您更好地使用AOM。 最佳实践 阈值告警最佳实践 服务发现最佳实践 统计日志关键词 06 API 您可以使用本文档提供的API对应用运维
-
AOM配置日志转储时无法选中obs桶是什么原因? - 应用运维管理 AOM
在用户页面,找到需要添加LTS权限的用户名,单击右侧操作列的“授权”。 选择授权模型:角色授权,单击“下一步”。 选择授权方式:直接给用户授权,筛选“云日志服务LTS”,勾选云日志服务所有权限或只读权限,单击“下一步”。 选择您想关联的区域项目,单击“确定”,授权成功。 父主题: 常见使用问题
-
任务执行日志中的执行机与任务配置的不一致 - 应用运维管理 AOM
任务执行日志中的执行机与任务配置的不一致 可能原因 该任务中配置的执行机已被删除或无权限,则执行时会忽略这些执行机,不显示在执行日志中。 解决方法 自动化运维在执行任务时会校验任务参数中的有效的执行机,请检查当前任务中配置的执行机是否都有效。 父主题: 运维管理(日落)
-
与其他服务的关系 - 应用运维管理 AOM
与其他服务的关系 AOM可与消息通知服务、分布式消息服务、云审计等服务配合使用。例如,通过消息通知服务您可将AOM的告警规则状态变更信息通过短信或电子邮件的方式发送给相关人员。同时AOM对接了虚拟私有云、弹性负载均衡等中间件服务,通过AOM您可对这些中间件服务进行监控。AOM还对
-
启动ECS实例 - 应用运维管理 AOM
启动ECS实例 使用启动ECS实例卡片可以创建任务,用来启动一个或多个ECS实例。 创建启动ECS实例任务 登录AOM 2.0控制台。 在左侧导航栏单击“自动化运维(日落)”,即可进入“自动化运维”界面。 在左侧导航栏中选择“服务场景”,在服务场景页面单击“启动ECS实例”卡片,
-
获取Prometheus实例的服务地址 - 应用运维管理 AOM
获取Prometheus实例的服务地址 在default、ECS、CCE、Remote Write类型的Prometheus实例的“设置”页签下“服务地址”区域,可以获取当前Prometheus实例的Remote Read和Remote Write Prometheus配置代码。在云服务、多账号聚合
-
管理接入规则 - 应用运维管理 AOM
管理接入规则 本章为您介绍如何添加、查看、删除接入规则。 前提条件 已创建需要映射的日志组和日志流。创建方法请参见:创建日志组和日志流,也可以在添加接入规则页面直接创建。 已有集群、命名空间和工作负载,详情请参见:CCE用户指南、CCI用户指南;已配置容器服务日志采集路径。 添加接入规则
-
约束与限制 - 应用运维管理 AOM
由于JOB在完成任务之后,会自动退出。如果您需要监控JOB指标,要保证存活时间大于90秒才能采集到指标数据。 采集器资源消耗 采集器在采集基础指标时的资源消耗情况和容器、进程数等因素有关,在未运行任何业务的VM上,采集器将消耗30M内存、1% CPU。为保证采集可靠性,单节点上运行的容器个数应小于1000。
-
AOM有哪些使用限制? - 应用运维管理 AOM
由于JOB在完成任务之后,会自动退出。如果您需要监控JOB指标,要保证存活时间大于90秒才能采集到指标数据。 采集器资源消耗 采集器在采集基础指标时的资源消耗情况和容器、进程数等因素有关,在未运行任何业务的VM上,采集器将消耗30M内存、1% CPU。为保证采集可靠性,单节点上运行的容器个数应小于1000。
-
资源管理 - 应用运维管理 AOM
资源管理对用户所有的各类云服务进行统一管理。可全局查看所有的云服务资源对象与应用的关联关系,包括未绑定应用的云资源,便于用户对资源进行分析和管理。 目前支持对以下资源类型的管理: 云服务器ECS、云容器引擎CCE,数据库(关系型数据库RDS、文档数据库DDS、数据复制服务DRS、云数据库GaussDB
-
产品功能 - 应用运维管理 AOM
主机监控的设计类似应用监控,主机的层级关系为:主机列表->主机详情。详情页面包含了当前主机上所发现的所有实例,显卡,网卡,磁盘,文件系统等信息。 应用自动发现 您在主机上部署应用后,在主机上安装的ICAgent将自动收集应用信息,包括进程名称,组件名称,容器名称,Kubernetes pod名称
-
ICAgent安装类常见问题 - 应用运维管理 AOM
ICAgent安装类常见问题 ICAgent安装机和目标机器网络不通,报错提示“[warn] ssh connect failed, 1.2.1.2:22”如何解决? 答:安装之前先在安装页面单击连接测试,选择网络能通的安装机。 ICAgent安装成功后,后续的心跳和注册都失败,代理机网络不通,如何解决?
-
Prometheus实例 for Remote Write - 应用运维管理 AOM
Prometheus实例 for Remote Write Remote Write Prometheus实例类型,适合已经自建了Prometheus服务器,但需要通过远端存储(Remote Write)方式来解决Prometheus存储的可用性和可扩展性场景。 创建Remote Write Prometheus实例
-
通过告警降噪清除告警风暴 - 应用运维管理 AOM
警中快速及时发现故障,全面掌握应用。 解决方案 AOM通过设置告警规则,实时监控环境中主机、组件等资源使用情况。当产品自身或外部服务存在异常情况时,立即触发告警。并提供告警降噪功能,支持发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,帮助用户快速识别重点问题,避免产生告警风暴。
-
安装UniAgent - 应用运维管理 AOM
ion}均可在安装界面获取: region_name:指定承载REST服务端点的服务器域名或IP,不同服务不同区域的名称不同。 Site domain name suffix :站点域名后缀,例如“myhuaweicloud.com”。 version:当前所安装的Uniagent的版本。