检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建消息模板 AOM提供消息模板功能,可通过创建消息模板自定义配置通知消息,当AOM触发已设定的告警通知策略时,可通过此功能以您自定义消息模板的邮件、短信、飞书、企业微信、钉钉、语音、welink、HTTP或HTTPS形式通知指定的人员。
创建消息模板 AOM提供消息模板功能,可通过创建消息模板自定义配置通知消息,当AOM触发已设定的告警通知策略时,可通过此功能以您自定义消息模板的邮件、短信、企业微信、钉钉、语音、HTTP或HTTPS形式通知指定的人员。如果您未创建任何消息模板,则采用默认消息模板。
然后根据应用近7天的调用链数据来训练调用链模型。
搜索应用时,系统提示“AOM.11007006: get policy list failed.” 问题描述 在应用资源管理的“首页”界面进行资源检索时,系统提示“AOM.11007006: get policy list failed.”
告警方式包括邮件、短信、钉钉、企业微信、语音等方式。 告警降噪:选择告警降噪的分组规则进行告警降噪。 告警行动规则 告警行动规则定义产生告警之后,按照规则做何种动作。包括消息发送到哪里和以什么形式发送。消息发送到哪里通过华为云服务SMN主题设置。
内置字段有appName、category、clusterId、clusterName、collectTime、containerName、hostIP、hostIPv6、hostId、hostName、nameSpace、pathFile、podName、serviceID,默认简化显示
≥0 千字节/秒(kB/s) GPU显存 ma_container_gpu_mem_total_megabytes 显存容量 该指标用于统计训练任务的显存容量。
-0","container_name1"]' 父主题: 容器日志采集配置
cat /var/ICAgent/oss.icAgent.trace | grep httpsend | grep MONITOR 若回显信息中包含“failed”字样,则说明ICAgent无法成功上报指标 => 执行3 若回显信息中无“failed”字样,则说明ICAgent可成功上报指标
domain_ak 否 String IAM账号AK,选填。 domain_sk 否 String IAM账号SK,选填。 响应参数 状态码: 200 表6 响应Body参数 参数 参数类型 描述 state Boolean 执行状态: true:成功下发任务。
503 ServiceUnavailable 被请求的服务无效。建议直接修改该请求,不要重试该请求。 错误码 请参见错误码。 父主题: 监控
503 ServiceUnavailable 被请求的服务无效。建议直接修改该请求,不要重试该请求。 错误码 请参见错误码。 父主题: 监控
CCE容器场景 通常情况下,用户购买CCE集群,部署工作负载之后,默认会采集cluster、Pod、Container、Node等基础指标-容器指标,基础指标的上报不产生费用。
请求示例 查询指标名称"cpuUsage"且所属命名空间为"PAAS.CONTAINER"的指标在最近5分钟的监控数据。
ICAgent安装类常见问题 ICAgent安装机和目标机器网络不通,报错提示“[warn] ssh connect failed, 1.2.1.2:22”如何解决? 答:安装之前先在安装页面单击连接测试,选择网络能通的安装机。
≥0 千字节/秒(kB/s) 文件系统可用(aom_container_filesystem_available_capacity_megabytes) 该指标用于统计测量对象文件系统的可用大小。
容器是否terminated kube_pod_container_status_terminated_reason terminated容器的reason kube_pod_container_status_waiting 容器是否waiting kube_pod_container_status_waiting_reason
≥0 无 ai_cpu_rate ai_cpu_rate AI cpu占用率 昇腾AI加速卡的AI CPU使用率,由用户调用edgecore接口上报。
{podID="573663db-4f09-4f30-a432-7f11bdb8fb2e",podName="icagent-bkm6q"} 容器上行Bps {containerID="",containerName=""} aom_container_network_transmit_bytes
命令失败数 统计当前实例/资源空间下命令失败数 ≥0 次 流控数据 iotda_flowcontrol_north_failedCount API调用流控失败数 统计当前实例下调用API流控失败次数 ≥0 次 iotda_flowcontrol_south_failedCount