应对大规模资源的监控 应用场景 对于有一定资源规模的组织或企业而言,资源数量大多会因为人工维护繁琐导致易出错,同时应用于不同生产环节的资源可能需要分组管理,例如用于测试和用于生产的资源相比,需要配置的监控与告警、通知渠道与接收用户也可能不一样。云监控支持根据实例名称、实例标签、企业项目进行分组管理告警规则
√ × × Debain10.6 √ × × Debain11.10 √ √ × debian 11.4 √ × × debian 11.5 √ × × EulerOS EulerOS 2.8 64bit × × √ EulerOS 2.5 64bit √ √ × EulerOS
修改裸金属服务器和用户客户端浏览器时间一致参考命令:timedatectl set-timezone 'Asia/Shanghai'。 父主题: 主机监控
SYS.CloudTable Key:cluster_id Value:CloudTable集群ID Key:instance_name Value:CloudTable集群节点名称 HBase集群的监控指标说明 Doris集群的监控指标说明 ClickHouse集群的监控指标说明 人工智能
"user": { "name": "username", //IAM用户名 "password": "********", //IAM用户密码 "domain
grantRoleToAgencyOnProject", "iam:permissions:listRolesForAgency", "iam:permissions:listRolesForAgencyOnDomain
手动恢复告警记录 手动恢复是指用户在控制台上通过人工干预来确认问题已经被解决,并将该告警状态改为“已解决(手动)”。此操作存在风险,只用于特殊场景,一般不建议做手动恢复。本章节指导用户如何手动恢复告警记录。 约束与限制 告警状态为告警中、已触发或数据不足时,可手动恢复告警记录。 操作步骤
SYS.CloudTable Key:cluster_id Value:CloudTable集群ID Key:instance_name Value:CloudTable集群节点名称 HBase集群的监控指标说明 Doris集群的监控指标说明 ClickHouse集群的监控指标说明 人工智能
容器无法正常网络通信 重要 容器共享内存过小 共享内存默认为64M,可按需修改 方式一: 修改/etc/docker/daemon.json配置文件default-shm-size字段 方式二: docker run 命令中使用 --shm-size 参数来设置单个容器的共享内存大小 分布式训练时共享内存不足导致训练失败
容器无法正常网络通信 重要 容器共享内存过小 共享内存默认为64M,可按需修改 方式一: 修改/etc/docker/daemon.json配置文件default-shm-size字段 方式二: docker run 命令中使用 --shm-size 参数来设置单个容器的共享内存大小 分布式训练时共享内存不足导致训练失败
在SAP HANA云服务器中,操作系统(Guest OS)中内部idle=mwait,当操作系统内部空闲时,进入mwait状态,相比idle=poll消耗资源较少,但同样不主动让出CPU,导致CPU占用异常。
detail 是 detail object 事件详情。 详细参数请参见表4。 表4 detail字段数据结构说明 名称 是否必选 参数类型 说明 content 否 String 事件内容,最大长度4096。
0-100 % 不涉及 2.4.5 1分钟 cpu_usage_iowait (Agent)iowait状态占比 该指标用于统计测量对象当前iowait状态占用CPU的比率。 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出iowait状态占比。
为什么云监控服务页面展示了未上线的云服务 云监控服务提供的涉及选择云服务的功能中,部分功能展示了全量已对接云监控的云服务,具体使用时请以当前局点上线的云服务为准。涉及的功能如表1所示。 表1 展示全量已对接云监控的云服务的功能点 功能 具体场景 创建告警规则 创建系统事件类告警规则时的事件来源选择列表
资源分组支持的云服务 由于智能创建资源分组的能力依赖云服务对接config资源管理服务,可能存在部分云服务在某些region未对接config的情况,具体支持情况可在页面配置资源分组时查看确认。 云服务 英文简称 产品 手动添加 企业项目 标签 实例名称 组合匹配 弹性云服务器 ECS
RAID控制器 枚举值: mount_point disk proc gpu raid value String 维度值,32位字符串,如:2e84018fc8b4484b94e89aae212fe615 最小长度:32 最大长度:32 origin_value String
TCP详细指标:TCP SYS_SENT、TCP SYS_RECV、TCP FIN_WAIT1、TCP FIN_WAIT2、TCP TIME_WAIT、TCP CLOSE、TCP CLOSE_WAIT、TCP LAST_ACK、 TCP LISTEN、 TCP CLOSING。
恢复到新实例失败 TaurusRestoreToNewInstanceFailed 实例绑定EIP失败 TaurusBindEIPToInstanceFailed 实例解绑EIP失败 TaurusUnbindEIPFromInstanceFailed 实例修改参数失败 TaurusUpdateInstanceParameterFailed
detail Detail object 是 事件详情。 详细参数说明请参见表4。 event_id String 否 事件ID。 表4 detail字段数据结构说明 名称 类型 是否必选 描述 content String 否 事件内容,最大长度4096。
{ "projects": [ { "domain_id": "65382450e8f64ac0870cd180d14e684b", "is_domain": false, "parent_id
您即将访问非华为云网站,请注意账号财产安全