检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用资源分组和告警功能上报指定资源的监控指标 场景描述 云监控服务提供了资源分组功能和告警功能。如何将您的资源进行有效分组,并按分组后的资源监控指标通过短信或邮箱告知告警信息呢? 本章节为您解答上述问题。 假设我们有4台云服务器,两台用于开发项目组(ECS-01和ECS-02),
进程监控:针对主机内活跃进程进行的监控,默认采集活跃进程消耗的CPU、内存,以及打开的文件数量等信息。 目前支持Linux操作系统和Windows操作系统。支持的系统请参见Agent支持的系统有哪些?。 ECS规格建议Linux使用“2vCPUs | 4GiB”、Windows使用“4vCPUs | 8GiB”或更高配置。
通过资源分组实现云资源分组监控 对于有一定资源规模的组织或企业而言,资源数量大多会因为人工维护繁琐导致易出错,同时应用于不同生产环节的资源可能需要分组管理,例如用于测试和用于生产的资源相比,需要配置的监控与告警、通知渠道与接收用户也可能不一样。云监控支持根据实例名称、实例标签、企
Agent插件资源占用和熔断说明 资源占用 Agent占用的系统资源很小,CPU单核使用率最大不超过10%、内存最大不超过200M。一般情况下,CPU单核使用率<5%,内存<100M。 熔断 Agent的CPU单核利用率大于10%,或者内存使用超过200M,且连续发生三次。为了保
Agent状态切换或监控面板有断点该如何处理? 问题现象 当云监控服务的Agent进程出现以下现象时,可能是因为Agent负载过高,状态不稳定导致: 管理控制台主机监控页面的“插件状态”参数在“运行中”和“故障”两个状态切换。 监控指标面板中存在断点。 约束与限制 当前章节的修复
在工业监控、气象监控、家居自动化和过程管理等领域也有着较广泛的用户基础。将华为云Cloudeye服务接入prometheus后,您可以利用 prometheus更好地监控和分析来自 Cloudeye服务的数据。 Grafana是一个开源的可视化和分析平台,支持多种数据源,提供多种
能实现对应的权限功能。 授权范围:自定义策略的授权范围,包括IAM项目与企业项目。授权范围如果同时支持IAM项目和企业项目,表示此授权项对应的自定义策略,可以在IAM和企业管理两个服务中给用户组授权并生效。如果仅支持IAM项目,不支持企业项目,表示仅能在IAM中给用户组授权并生效
使用事件监控 事件监控提供了事件类型数据上报、查询和告警的功能。方便您将业务中的各类重要事件或对云资源的操作事件收集到云监控,并在事件发生时进行告警。 事件即云监控保存并监控的云服务资源的关键操作。您可以通过“事件”了解到谁在什么时间对系统哪些资源做了什么操作,如删除虚拟机、重启虚拟机等。
各区域对应的云监控服务的Endpoint请参考“地区和终端节点”。 问题解决(Windows) 以administrator权限用户登录弹性云服务器或裸金属服务器。 进入任务管理器,查看telescope进程是否存在。 当包括图5和图6两个进程时,表示telescope进程正常。 图5
详细使用方法和步骤。 常用操作 监控面板简介 主机监控简介 站点监控简介 事件监控简介 05 APIs 通过云监控服务开放的丰富API和调用示例,您可以使用并管理监控指标和告警规则、查询监控数据等。 最佳实践 API概览 API说明 快速入门 策略和授权项说明 02 入门 快速让
前提条件 账号下已购买了ECS弹性云服务器资源,同时在CES主机监控列表能看到资源信息。 为主机配置安装Agent插件 ECS会上报基础监控指标和操作系统监控指标,其中基础监控指标是ECS云服务本身上报的指标,但是这类指标的采集周期大部分是5分钟周期,另一种则是操作系统安装了CES A
服务器整机SN、产品名称、厂家等。 使用dmidecode命令采集。 SSD/HDD 基本信息和SMART信息 包含盘的基本信息。(SN、型号、容量、协议类型、固件版本等),以及盘的SMART log中的各项指标(健康状态、温度、坏块计数、各类错误和失败计数等)。 使用smartctl -a <盘符>命令采集。
解决方法 参考查询监控数据接口文档:查询监控数据。 问题二 问题描述 调用不同region区域的接口,对应的域名是什么。 解决方法 参考文档:地区和终端节点。 常见4XX问题处理 HTTP状态码 429 错误码 ces.0429 可能原因 原因1:API被流控。详见下方【案例一】 解决方法
用户单行数据量过大,可能会导致查询超时,进而节点OOM异常退出等各种故障发生。 1. 对每列和每行的写入长度做限制,遵从规范,使得单行的的key和value长度和不超过阈值。 2. 排查业务是否出现异常写入和异常编码,导致写入大row。 过大的单行记录,随着数据量增长,集群稳定性会下降。 用户计划删除KMS密钥
用户单行数据量过大,可能会导致查询超时,进而节点OOM异常退出等各种故障发生。 1. 对每列和每行的写入长度做限制,遵从规范,使得单行的的key和value长度和不超过阈值。 2. 排查业务是否出现异常写入和异常编码,导致写入大row。 过大的单行记录,随着数据量增长,集群稳定性会下降。 用户计划删除KMS密钥
归属企业项目 拥有资源分组权限的企业项目名称。 创建方式 创建资源分组的方式,有手动添加和智能添加两种。 资源匹配规则 资源的匹配规则有匹配企业项目、匹配标签、组合匹配或实例名称匹配的形式。 资源层级 资源层级有云产品和子维度两种。 关联告警模板 资源分组关联的告警模板。 创建时间 资源分组的创建时间。
由于灾难或者物理机故障导致单机或者主实例出现故障时会上报本事件,属于关键告警事件,有可能导致数据库服务不可用。 检查是否有设置自动备份策略,并且提交工单处理。 单实例转主备实例失败 即创建备机或者备机创建完成后在主备机之间配置同步有故障,一般是由于备节点所在数据中心资源不足导致,转主备失败不会导致
企业项目的子用户无法看到一键告警功能 企业项目的子用户在配置告警规则时,无法选择全部资源 告警通知是什么,分为几类? 告警状态有哪些? 告警级别有哪些? 如何查看数据盘的磁盘使用率和创建告警通知? 如何修改告警通知中云账号联系人和主题订阅者的电话、邮箱等信息? 如何将告警通知发送给子账号? 父主题:
主机监控 如何配置DNS和安全组? 如何配置委托? CES Agent如何通过授权获取临时AK/SK? Agent支持的系统有哪些? Agent插件资源占用和熔断说明 主机监控Agent对主机的性能会有影响吗? Agent不同插件状态说明及处理方式 Agent支持的指标列表 支持GPU监控的环境约束
Value:全球加速监听器和目的区域 Key:ga_pop_listener Value:全球加速接入点和监听器 Key:ga_pop_region Value:全球加速接入点和目的区域 Key:ga_pop_listener_region Value:全球加速接入点、监听器和目的区域 Ke