检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
维也转向云上的运维服务。对于云上应用的运维也提出了新的挑战。 图1 运维现有问题 运维人员技能要求高,配置繁杂,同时需要维护多套系统。对于分布式追踪系统,学习和使用成本高,并且稳定性差。 云化场景下的分布式应用问题分析困难主要表现在如何可视化微服务间的依赖关系、如何提高应用性能体
None 操作指导 应用运维管理 AOM 创建告警规则(按全量指标创建) 03:45 创建告警规则(按全量指标创建) 应用运维管理 AOM 创建告警规则(按Prometheus命令创建) 04:08 创建告警规则(按Prometheus命令创建) 应用运维管理 AOM 通过虚机接入方式接入中间件指标
None 操作指导 应用运维管理 AOM 如何创建告警规则 04:10 创建告警规则
xxxxxxxxxxxxx。 原因分析 该主机无法解析obs域名,导致无法下载UniAgent的安装脚本。 解决办法 指导用户为Linux系统的ECS主机配置DNS域名解析,并添加安全组,以解决下载UniAgent安装脚本出现域名无法解析问题。 修改ECS主机的DNS配置有两种方
磁盘分区指标 当主机类型为“CCE”时,可以查看磁盘分区指标,支持的系统为:CentOS 7.6版本、EulerOS 2.5。 以root用户登录CCE节点,执行docker info | grep 'Storage Driver'命令查看docker存储驱动类型。如果执行结果为“Device
执行脚本任务失败,提示 :agent not found 问题现象 在ECS执行脚本任务时失败,系统提示“agent not found”。 可能原因 没有正确安装UniAgent。 UniAgent为非“运行中”状态。 解决方法 检查UniAgent的状态,UniAgent状态
该指标用于统计测量对象文件系统的容量。仅支持1.11及其更高版本的kubernetes集群中驱动模式为devicemapper的容器。 ≥0 兆字节(MB) aom_container_filesystem_usage 文件系统使用率 该指标用于统计测量对象文件系统使用率。实际使用量与文件系统容量的百分比。仅支持1
态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘和全面托管的Prometheus服务。 Prometheus是一套开源的监控报警系统。主要特点包括多维数据模型、灵活查询语句PromQL以及数据可视化展示等。更多信息请参见Prometheus官方文档。 Prometheus实例
日志管理使用说明 AOM支持容器服务日志和虚机(这里的虚机指操作系统为Linux的弹性云服务器或裸金属服务器)日志采集,即采集您自定义的日志文件并展现在AOM界面中,以供您检索。 使用该功能前首先要配置日志采集路径,详情请参考配置日志采集路径。 图1 日志管理使用说明 父主题: 日志管理
and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"] projectId = "{project_id}"
ICAgent属于插件,UniAgent不属于插件,二者不是同一个含义。 UniAgent:UniAgent的全称是统一数据采集Agent,主要是作为云服务运维系统的底座,为AOM提供指令下发,如脚本下发和执行,用于插件集成(ICAgent、CES、telescope等)并维护其状态。UniAgent
ent会自动安装。 AOM和LTS使用的ICAgent功能完全相同,ICAgent采集的指标数据均上报到AOM分析处理,日志数据则只能匹配系统中最新的日志采集配置。 例如,当前在AOM中配置了ECS主机的日志采集路径,则之前在该资源集下,LTS中所有ECS主机的采集配置都失效。 ICAgent状态说明详见下表。
批量操作UniAgent 在主机列表中,可批量对主机的UniAgent进行重装、升级、卸载和删除操作。 如果安装UniAgent的主机是Windows操作系统,则只支持对主机的UniAgent进行升级和删除操作,如需重装和卸载,需手动在主机上执行。 重装UniAgent 当主机的UniAgen
概述 AOM提供告警行动规则定制功能,当资源或指标数据满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。 通过创建告警行动规则关联SMN主题与消息模板。 通过创建消息模板,自定义通知消息配置。 告警行动规则创建成功后,可在“告警> 告警降噪> 分组规则”中“创建分组规则”关联行动规则。
如果显示数据采集被停止,可能的原因有: 实例级别停止,APM探针管理中采集被停止。 监控项级别停止,监控项状态列表某些监控项采集被人为停止。 APM控制台的“全局配置(系统管理 > 通用配置)”中字节码方式采集被停止。 如果长时间未采集到指标数据,可能的原因有: java9启动提示找不到sql.time类 原因分析:APM探针开发环境为jdk1
主要监控用户通过应用资源管理功能统一管理的所有资源对象与应用,通过该应用监控可以及时了解应用的资源使用、状态和告警等信息,以便快速响应,保证系统顺畅运行。 入口为:“进程监控 > 应用监控” 主要监控通过应用发现规则发现的进程对应的应用。 父主题: 应用监控
规则的描述信息,最多可输入1024个字符。 设置告警规则的详细信息。 设置“规则类型”为“事件告警规则”。 设置事件类型及对应事件来源。 事件类型设置为“系统事件”,此时事件来源只能选择“CCE”和“ModelArts”服务。 事件类型设置为“自定义事件”,事件来源请从现有的服务列表中选择。 设置告警规则详情。
要应用于告警通知、消息模板等场景,为告警非标识性属性。 告警标签说明 告警标签可应用于告警降噪模块的分组规则、抑制规则和静默规则,告警管理系统根据标签属性进行告警管理和通知。 告警标签为key:value键值对格式,支持用户自定义。key 和value只能包含中文、字母、数字和下划线。
在“日志搜索”页面中选择日志页签(即组件、系统、主机)并按照界面提示设置日志查询条件。 支持分别搜索“组件”、“系统”、“主机”日志。 组件日志支持设置“集群”、“命名空间”、“组件”等过滤条件,还可以通过“高级搜索”,设置“实例”、“主机”、“文件名称”、“隐藏系统组件”等过滤条件搜索日志。 系统日志支持设置“集群”、“主机”等过滤条件。
要应用于告警通知、消息模板等场景,为告警非标识性属性。 告警标签特征 告警标签可应用于告警降噪模块的分组规则、抑制规则和静默规则,告警管理系统根据标签属性进行告警管理和通知。 告警标签为key:value键值对格式,支持用户自定义。key 和value只能由字母、数字和下划线组成