检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
员及时采取措施清除故障,避免造成业务损失。 监控 提供应用监控、组件监控、主机监控、容器监控、指标浏览等功能。 应用监控 应用是您根据业务需要,对相同或者相近业务的一组组件进行逻辑划分,AOM提供以应用维度整体进行监控。 组件监控 组件即您部署的服务,包括容器和普通进程。 组件列
在左侧导航栏中选择“接入 > 接入中心”,进入新版接入中心页面。当前部分区域的菜单路径修改为“接入中心 > 接入中心”。 如果您进入的是旧版接入中心,需要单击“接入中心”页面右上角“体验新版”进入新版接入中心页面。 勾选“类型”下的“云服务”前的复选框,筛选出云服务卡片。 单击卡片上的“接入
webhook。 topic 否 string 邮件主题。 sendType 否 string 当消息模板发送类型为“webhook”时需要指定消息模板格式,支持:HTML、JSON。 verison 是 string 默认为v2。 type Array of strings 消息通知方式。
签,例如近1小时、近6小时等,也可以自定义时间范围,最长可设置为1天。 单击“调用链”,进入调用链详情页面。 图2 调用链详情 您可以根据需要执行以下操作: 单击“收起时序图”,将时序图收起。 单击下载时序图。 单击资源列表中的资源,查看资源的链路信息、异常、日志、基础设施、Profiler性能分析。
取值范围:0s-10min,推荐设置为 15s。 变化等待 合并集合内的告警数据发生变化后,等待多久发送告警通知。通常设置为分钟级别的时间。如果您需要尽快收到告警通知,也可设置为秒级时间。 此处的变化是指新增告警或告警状态改变。 取值范围:5s-30min,推荐设置为60s。 重复等待
区域的菜单路径修改为“接入中心 > 接入中心”。 在右侧“Prometheus中间件”或“Prometheus 自定义插件接入”类型中单击需要接入的卡片,参考下表执行相关接入操作。 中间件:您可以直接使用AOM提供的的中间件Exporter插件来给主机创建采集任务,并安装中间件E
container_cpu_usage_seconds_total 容器在所有CPU内核上的累积占用时间 container_file_descriptors 容器打开的文件描述符数量 container_fs_inodes_free 文件系统的可用inode数量 container_fs_inodes_total
抑制规则失效,抑制对象(被源告警抑制的告警)将正常发送告警通知。 您最多可创建100条抑制规则,如果抑制规则数量已达上限100时,请删除不需要的抑制规则。 创建告警抑制规则 登录AOM 2.0控制台。 在左侧导航栏中选择“告警管理 > 告警降噪”。当前部分区域的菜单路径修改为“告警中心
时,所有检查项同时满足,AOM才能发现进程。 添加检查项完成后,单击“开始探测”,查找符合的进程。 如果20s后未探测到符合条件的进程,您需要修改发现规则后继续探测;如果探测到符合的进程,将可进入下一步的操作,否则不能进入后续操作。 设置应用名称及组件名称。 设置应用名称。 设置应用名称。
设置插值方式 单击“插值方式”,将指标数据按照所设置的插值方式进行聚合。当指标图表出现断点时,AOM默认使用null(即空值)表示断点。当您需要使用指标图表做汇报或展示时,出现断点的指标图表不太美观,您可通过切换插值为0或null的方式,对缺失的指标数据进行断点插值,进而规避掉断点。
用户对资源进行分析和管理。 环境标签 为已创建的应用环境添加标签,便于用户快速过滤和查找相同属性的应用环境。 资源监控 接入中心 快速接入需要监控的业务层、应用层、中间件层、基础设施层指标。 不支持 支持 仪表盘 将不同图表展示到同一个屏幕上,通过多种图表形式展示资源的指标、日志和性能数据。
该指标数量在所有指标中的占比。 云服务类型Prometheus实例的指标数据不支持展示指标占比。 废弃Prometheus实例指标 如果不需要上报Prometheus实例中的指标数据,您可废弃对应的指标。 登录AOM 2.0控制台。 在左侧导航栏中选择“Prometheus监控 >
webhook。 topic 否 string 邮件主题。 sendType 否 string 当消息模板发送类型为“webhook”时需要指定消息模板格式,支持:HTML、JSON。 verison 是 string 默认为v2。 type Array of strings 消息通知方式。
每个主机的容器个数缩减到1000个以内时,ICAgent将恢复该主机应用指标采集,并清除“ICAgent停止采集应用指标”告警 。 由于JOB在完成任务之后,会自动退出。如果您需要监控JOB指标,要保证存活时间大于90秒才能采集到指标数据。 采集器资源消耗 采集器在采集基础指标时的资源消耗情况和容器、进程数等因素有关
趋势图上方的值为所选集群下监控的最新时间点CPU&内存使用率的值。 更多监控概览界面操作 您还可以执行表1中的操作。 表1 相关操作 操作 说明 将卡片移至收藏夹 如果不需要关注某个卡片时,可单击卡片右上角的并选择“移至收藏夹”。卡片移至收藏夹后将在“监控概览”界面隐藏。若后续又需使用时,您可从收藏夹中快速获取。
每个主机的容器个数缩减到1000个以内时,ICAgent将恢复该主机应用指标采集,并清除“ICAgent停止采集应用指标”告警 。 由于JOB在完成任务之后,会自动退出。如果您需要监控JOB指标,要保证存活时间大于90秒才能采集到指标数据。 采集器资源消耗 采集器在采集基础指标时的资源消耗情况和容器、进程数等因素有关
ent将恢复该主机应用指标采集,并清除“ICAgent停止采集应用指标”告警 。 JOB指标 由于JOB在完成任务之后,会自动退出。如果您需要监控JOB指标,要保证存活时间大于90秒才能采集到指标数据。 采集器资源消耗 采集器在采集基础指标时的资源消耗情况和容器、进程数等因素有关
图8 作业执行方案任务执行详情 发布成服务 作业的执行方案可以发布生成服务卡片,执行方案发布后在服务场景中可以查看。作业的执行方案发布成服务,需要有cms:publish:update权限或cms:toolmarket:update权限。服务卡片的相关操作参见服务场景。 在左侧导航栏