正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
工具市场 工具市场会按照场景分类展现各功能的工具卡片,目前支持以下类型: 通用场景:脚本管理、文件管理。 云服务场景:启动ECS实例、关闭ECS实例、重启RDS实例、修改ECS非管理员密码、重启CCE工作负载。 软件部署:暂时为空。 日常巡检:暂时为空。 故障处理:清理磁盘空间。
通过helm部署pod的yaml文件后,AOM无法检测到工作负载 问题描述 通过helm部署pod的yaml文件后,AOM无法检测到工作负载。 原因分析 通过对比helm部署pod的yaml文件和在CCE控制台部署的pod yaml文件,发现helm部署pod的yaml文件中缺少env参数。
到AOM。 传输存储层 数据传输:AOM Access是用来接收运维数据的代理服务,运维数据接收上来之后,会将数据投放到Kafka队列中,利用Kafka高吞吐的能力,实时将数据传输给业务计算层。 数据存储:运维数据经过AOM后端服务的处理,将数据写入到数据库中,其中Cassand
可观测性分析 基于四层指标体系(基础设施层指标、中间件层指标、应用层指标和业务层指标),通过事务监控、容器监控、普罗监控等功能,提供异常检测、历史数据分析、性能分析、关联性和场景化分析等可观测性分析能力。 运维自动化 提供批量磁盘清理、作业编排、脚本执行等功能,将日常运维操作服务化、标准化、自动化。
clusterName,表示将指标按集群名称分组,然后将分组后的指标按平均值运算并展示在当前图表中。 检测规则 指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。例如,检测规则设置为“平均值>10”,表示指标的平均值大于已设置的阈值10时,生成指标告警。
功能介绍 事件巡检:提供基于应用性能管理APM平台的应用监控服务,通过应用服务和流量Top N接口的平均RT、错误率等关键指标看护服务质量,自动检测指标异常。 事件根因分析:提供基于应用性能管理APM平台的调用链追踪根因定位技术。可以从应用服务和流量Top N接口的指标、调用链维度,全局分析问题,快速诊断并定位故障根因。
通用场景默认展现文件管理、脚本管理工具卡片,也可以根据自身需求定制相应的工具卡片。可以使用卡片快速创建任务,也可以对卡片进行收藏或下架操作,具体操作参见脚本管理、文件管理。 云服务场景 云服务场景展现启动ECS实例、关闭ECS实例、重启RDS实例、修改ECS非管理员密码、重启CCE工作负载已上架的工具卡片。
设置告警规则详情。 指标的详细设置由统计周期、条件、检测规则、触发条件以及告警级别组成。指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(>=、<=、>、<)和阈值组成。例如,统计周期为“1分钟”,检测规则设置为“平均值>1”,触发条件为连续周期“3
表3 更多设置 参数类别 参数名称 说明 审批配置 人工审核 选择是否开启人工审核开关,默认不打开。 审批配置不允许更改,如需更改,需在工具市场中对该原子服务卡片进行审批配置。 审批人设置 开启人工审核后,需要选择审批人。 通过选择“主题”的方式配置审批人,您需要在消息通知服务
容器洞察 通过helm部署pod的yaml文件后,AOM无法检测到工作负载
TopN接口平均响应时间突增:默认对流量Top 5的接口进行检测,基于接口历史3小时数据,判断最近10分钟平均响应时间是否有异常突增点。 图7 TopN接口平均响应时间突增 TopN接口错误率突增:默认对流量Top 5的接口进行检测,基于接口历史3小时数据,判断最近10分钟错误率是否有异常突增点。
本地主动请求检测失败率超阈值的驱逐次数 主机因本地主动请求检测失败率超阈值的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_local_origin_success_rate 本地主动请求检测成功率未达阈值的驱逐次数 主机因本地主动请求检测成功率
目业务中,让各责任组织及时了解各自的成本情况。 华为云成本中心支持通过多种不同的方式对成本进行归集和重新分配,您可以根据需要选择合适的分配工具。 通过关联账号进行成本分配 企业主客户可以使用关联账号对子客户的成本进行归集,从而对子账号进行财务管理。详细介绍请参见通过关联账号维度查看成本分配。
地亚哥区域生效。 AOM提供了告警通知功能,您可通过创建通知规则进行详细配置,当AOM自身或外部服务存在异常或可能存在异常而产生告警时,可利用此功能将告警信息通过邮件或短信发送给您指定的人员,以便提醒相关人员及时采取措施清除故障,避免造成业务损失。 如果您未创建任何通知规则,则无
GPU内存带宽利用率 表示内存带宽利用率。以英伟达GPU V100为例,其最大内存带宽为900 GB/sec,如果当前的内存带宽为450 GB/sec,则内存带宽利用率为50%。 0~100 百分比(%) ma_container_gpu_enc_util GPU编码器利用率 表示编码器利用率
在控制台查看不到日志怎么办? 问题描述 在AOM控制台查不到日志。 可能原因 未安装ICAgent日志采集工具。 采集路径配置错误。 AOM控制台上的“日志采集开关”未开启。 AOM控制台上的“超额继续采集日志”开关未开启。 当前账号欠费,故采集器停止采集。 日志流写入速率和单行日志长度超出使用限制。
clusterName,表示将指标按集群名称分组,然后将分组后的指标按平均值运算并展示在当前图表中。 检测规则 指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(>=、<=、>、<)和阈值组成。例如,检测规则设置为“平均值>10”,表示指标的平均值大于已设置的阈值10时,生成指标告警。
clusterName,表示将指标按集群名称分组,然后将分组后的指标按平均值运算并展示在当前图表中。 检测规则 指标告警的检测规则,由统计方式(平均值、最小值、最大值、总计、样本个数)、判断条件(≥、≤、>、<)和阈值组成。例如,检测规则设置为“平均值>10”,表示指标的平均值大于已设置的阈值10时,生成指标告警。
构建指标告警、事件告警、日志告警的统一告警体系,提供分组、抑制和静默等告警降噪策略,结合告警通知和订阅等功能,帮助用户从容应对海量告警风暴,快速检测和修复业务告警。 统一可视化 支持对多种数据源,在同一个仪表盘中统一监控与分析,并以折线图、数字图等形式多样化、可视化呈现,帮助用户快速监
跨云服务的分布式应用监控:对于同时使用了多种云服务的分布式应用,提供统一的运维平台,便于您对业务进行立体排查。 告警灵活通知:提供多种异常检测策略并支持丰富的异常告警触发方式及API。 图1 巡检与问题定界 立体化运维 您需全方位掌控系统的运行状态,并快速响应各类问题。 AOM提