检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
什么是应用运维管理 运维遇到挑战 随着容器技术的普及,越来越多的企业通过微服务框架开发应用,业务实现更多使用云上服务,运维也转向云上的运维服务。对于云上应用的运维也提出了新的挑战。 图1 运维现有问题 运维人员技能要求高,配置繁杂,同时需要维护多套系统。对于分布式追踪系统,学习和使用成本高,并且稳定性差。
高危命令说明 高危命令指影响系统或服务的正常运行,或造成系统特殊文件被恶意删除或修改命令。自动化运维服务涉及的高危命令请参见表1。 表1 高危命令说明 高危命令名称 高危命令校验规则 样例 导致风险 vi /etc/xxx.xx command \\s*(vi|vim)\\s+/
添加日志桶 日志桶是对日志文件逻辑上的分组。用于以日志桶为单位查看日志等,使用这些功能前您需先添加一个日志桶。 注意事项 每个日志桶最多可添加500个日志文件。 同一个日志桶中只能添加同一个集群的日志文件。 添加日志桶 登录AOM控制台,在左侧导航栏中选择“日志 > 日志桶”。
基础指标:node-exporter指标 介绍通过中间件Exporter上报到AOM的node-exporter指标的类别、名称、含义等信息。 表1 CCE/自建K8s集群容器指标 Job名称 指标 指标含义 node-exporter node_filesystem_size_bytes
权限和授权项说明 如果您需要对您所拥有的AOM进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),如果华为账号所具备的权限功能已经能满足您的要求,您可以跳过本章节,不影响您使用AOM服务的其它功能。 通过IA
通过仪表盘监控Prometheus实例指标数据 通过系统预置的仪表盘模板,用户可以快速监控云服务类型和default类型Prometheus实例的指标数据,及时定位并发现资源数据存在的问题,提升运维效率。 前提条件 服务已接入云服务类型Prometheus监控并接入云服务,具体请参见Prometheus实例
App监控 AOM作为华为云服务可观测性分析统一入口,自身并不具有APM服务的功能,AOM 2.0控制台中App监控相关功能由应用性能管理APM提供。用户可在AOM 2.0控制台界面操作,也可登录APM控制台界面操作。 约束与限制 当前仅华北-乌兰察布二零一、华北-北京一、华南-
创建用户并授权使用AOM 如果您需要对您所拥有的AOM进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),通过IAM,您可以: 根据企业的业务组织,在您的华为云账号中,给企业中不同职能部门的员工创建IAM用户
公共请求消息头 表1 公共请求消息头 名称 描述 是否必选 示例 X-Auth-Token 用户Token。 使用Token认证时必选 - Content-Type 内容类型。 该字段内容填为“application/json;charset=utf8”。 必选 applicat
API开源协议及其他组件接入AOM AOM作为华为云服务可观测性分析统一入口,提供接入中心功能,支持将API开源协议及其他类型组件相关指标接入AOM,将调用链接入APM,并支持查看日志接入LTS相关操作文档。 配置API开源协议及其他组件接入AOM 登录AOM 2.0控制台。 在左侧导航栏中选择“接入
安装ICAgent 本章节以在ECS控制台购买的一台ECS为例,演示如何为其安装ICAgent并在AOM界面对其进行监控。 注意事项 已购买一台ECS。 ECS的操作系统满足AOM支持的操作系统及版本。 请提前获取AK/SK。 本地浏览器时间和ECS时间一致。 安装ICAgent
审计与日志 审计 云审计服务(Cloud Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建和配置追踪器后,CTS可记录AOM的管理事件用于审计。
创建AOM告警分组规则 告警分组规则功能可以从告警中筛选出满足条件的告警子集,然后按分组条件对告警子集分组,告警触发时同组告警会被汇聚在一起发送一条通知。 约束与限制 您最多可创建100条分组规则,如果分组规则数量已达上限100时,请删除不需要的分组规则。 当前部分区域“告警管理
升级ICAgent 为了更好的采集体验,AOM会不断更新ICAgent版本。当Linux系统提示您有新的ICAgent版本时,您可以按照如下操作步骤进行升级。 登录AOM控制台,在左侧导航栏中选择“配置管理 > Agent管理”。 在页面右侧的下拉列表框中选择“集群:xxx”或“其他:用户自定义接入主机”。
创建用户并授权使用自动化运维 如果您需要对您所拥有的自动化运维进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),通过IAM,您可以: 根据企业的业务组织,在您的华为云账号中,给企业中不同职能部门的员工创建I
入门实践 当您完成了安装ICAgent、配置服务发现规则等基本操作后,可以根据自身的业务需求使用应用运维管理提供的一系列常用实践。 表1 常用最佳实践 实践 描述 阈值告警最佳实践(新版) 告警作为AOM应用运维管理中一项基础功能,在日常运维中发挥着重要作用。AOM告警可以对接华
自定义插件接入AOM 您可以创建一个插件,在插件中通过脚本自定义需要上报到AOM的指标数据,并通过该自定义插件创建采集任务,即可采集自定义的指标数据到AOM,以监控该指标数据。 前提条件 主机已安装UniAgent,且状态为运行中。 已创建ECS Prometheus实例。 创建自定义插件
应用层接入AOM AOM作为华为云服务可观测性分析统一入口,提供接入中心,支持将应用层组件的调用链接入APM,来监控应用相关的性能图表或接口性能指标等。例如:请求平均时延、错误调用次数、请求吞吐量等。 配置应用层接入AOM 登录AOM 2.0控制台。 在左侧导航栏中选择“接入 >
创建事件类告警规则 通过事件类告警规则可对服务设置事件条件,当服务发生了某种变化,资源数据满足事件条件时产生事件类告警。 注意事项 当服务的资源数据满足事件条件时,如需使用邮件或短信等方式发送通知,请参考“创建告警行动规则”设置告警行动规则。 操作步骤 登录AOM控制台,在左侧导航栏中选择“告警
可观测大屏监控 运维可观测大屏是基于华为云Astro低代码平台开发的面向不同场景、角色的运维监控大屏,基于现网质量、服务韧性、评估优化等N大主题域,通过运维数据建模、可视化等数据分析能力,提供企业级运维沙盘。满足您全场景、自动化、可量化、可观测的一体化监控解决方案,为业务健康和稳定保驾护航。