检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
单击“异常堆栈”列的“查看详情”可以查看异常的详细信息。 单击“异常堆栈”列的“历史信息”可以查看该类名的历史异常堆栈列表。 单击“调用链”列的“查看详情”可以查看该类名的调用链详细信息。 单击“调用链”列的“历史信息”可以查看该类名的调用链记录列表。 单击“版本”列的蓝色文字,可以查看该版本的日志详情。
登录管理控制台的账号。 ${domain_name} 通知类型 创建通知规则时选择的类型:告警或事件 ${event_type} 事件级别 创建通知规则时选择告警或事件级别:紧急、重要、次要、提示 ${event_severity} 事件名称 触发通知规则的告警或事件的名称 $event
性能问题 具体的性能问题的描述。 调用方法 当前问题出现的方法名。 问题出现数 在查询的时间范围内,当前性能问题出现的次数。 CPU使用率 当前问题最后一次出现,所使用的资源(cpu)的使用率。 操作 支持的其他操作类型,目前仅支持查看详情。 单击操作列的“查看详情”,展示某
选择对应集群,单击“安装ICAgent”,然后在弹出的提示框单击“确定”。 等待“ICAgent状态”列显示为“运行”,则表示ICAgent安装成功。 采集路径如果配置的是目录,示例:/var/logs/,则只采集目录下后缀为“.log”、“.trace”和“.out”的文件;如果配置的是文件名,则直接采集对
服务场景 服务场景概述 启动ECS实例 关闭ECS实例 重启RDS实例 修改ECS非管理员密码 重启CCE工作负载 清理磁盘空间 父主题: 运维管理(日落)
集群监控 集群监控的对象为通过CCE部署的集群。“集群监控”页面可实时监控集群的多项基础监控指标(例如集群状态、CPU使用率、内存使用率、节点运行状态等)和相关的告警、事件数据,通过这些指标和相关的告警信息,用户可实时了解集群的运行状况,及时处理潜在风险,保障集群稳定运行。 约束与限制
个脚本的多版本管理。 作业管理 将脚本和文件原子操作进行多步骤编排形成作业模板,用于完成特定运维自动化场景操作。例如初始化业务环境。 执行方案 从作业模板中挑选1个或多个步骤组合组成执行方案。是作业模板的实例化对象。 云服务场景 云服务提供的原子化的变更场景。例如重启ECS。 标准化运维
单击告警条件后的,可将对应行的指标数据和告警条件转换为Prometheus命令。 单击告警条件后的,可快速复制对应行的指标数据及告警条件等信息,并根据需要修改。 单击告警条件后的,可删除对应行指标数据的监控。 图8 设置告警规则详情 表5 告警规则详情填写说明 参数名称 参数说明 多指标 按设置的多个指标
配置管理 ICAgent管理(华为云主机) ICAgent管理(非华为云主机) 接入管理 日志配置 配额设置 指标配置 数据订阅
资源接入AOM 安装ICAgent(华为云主机) 安装ICAgent(非华为云主机) ICAgent版本说明 配置应用发现规则 配置日志采集路径
事件巡检服务会定时巡检已开通智能洞察的应用服务,基于应用历史数据的平均RT、错误率等关键指标看护服务质量,全局分析问题。 功能说明 事件巡检基于应用的历史数据,形成动态上界,以比对服务近期时间的数据是否有异常。 获取基础数据时间范围如下: 基于应用3小时内的历史数据,形成动态上界,以比对近10分钟的数据是否有异常。支持如下事件类型:
在“云服务接入”界面右侧已接入云服务下单击需要取消接入的云服务卡片,在弹出的对话框中单击“取消接入云服务”。 查看/修改已接入的云服务标签配置 在“云服务接入”界面单击已接入云服务下的云服务卡片,即可修改“接入云服务标签(可选)”的相关设置,具体设置请参见表2。 父主题: 创建Prometheus实例
够有效预防问题的产生及快速帮助应用运维人员定位故障,降低运维成本。APM提供了用户体验管理、分布式性能追踪、事务分析等能力,可以帮助运维人员快速解决应用在分布式架构下的问题定位和性能瓶颈等难题,为用户体验保驾护航。 AOM提供基础运维能力,APM是对AOM运维能力的补充。AOM界
t,以便于采集日志数据。 ICAgent ICAgent用于采集指标、日志和应用性能数据,对于在ECS、BMS控制台直接购买的主机,您需手动安装ICAgent。对于通过CCE间接购买的主机,ICAgent会自动安装。 安装机 在AOM界面上,安装机支持批量下发安装UniAgent
什么是应用运维管理 运维遇到挑战 随着容器技术的普及,越来越多的企业通过微服务框架开发应用,业务实现更多使用云上服务,运维也转向云上的运维服务。对于云上应用的运维也提出了新的挑战。 图1 运维现有问题 运维人员技能要求高,配置繁杂,同时需要维护多套系统。对于分布式追踪系统,学习和使用成本高,并且稳定性差。
资源监控使用说明 满足内置发现规则的服务,安装ICAgent后该服务会自动被发现;对于不满足内置应用发现规则的服务,您则需配置应用发现规则。 资源监控使用说明如下: 图1 资源监控使用说明 父主题: 资源监控
可以选择default类型的Prometheus实例和自定义创建的Prometheus实例,默认选择default类型的Prometheus实例。 支持选择的数据源类型:Prometheus for 云服务、Prometheus for ECS、Prometheus for CCE、Prometheus
切分后的单词进行搜索。初次使用时,AOM已默认进行了分词配置,默认配置的分词符为: , '";=()[]{}@&<>/:\n\t\r 若默认分词符不能满足您的需求时,可按照如下操作进行自定义配置。 注意事项 分词配置只会对配置时间点以后生成的日志生效,之前的日志以之前配置的分词符进行处理。
d当前使用的cpu使用率。 针对指标aom_node_cpu_limit_core,使用聚合函数sum,按照nodeIP计算出指定node的cpu总量。 两者均采用(by nodeIP)进行过滤,以使获得的指标值具有相同的指标维度。(仅value不同) 将上述两者获得的指标值进行