检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
期备份,避免受到未预期的删除、修改或覆盖。 风险等级 高 关键策略 云服务的关键操作包含高危操作(如创建IAM用户、删除IAM用户、重启虚拟机、变更安全配置等)、成本敏感操作(创建、删除高价资源等)、业务敏感操作(网络配置变更等)。 启用关键操作通知功能。启用云审计服务CTS的关
风险等级 高 关键策略 事件(incidents)是需要干预的事情。当发生事故(incidents)时,通过流程来处理。如何与团队沟通活动的状态?谁负责响应处置?使用哪些工具来缓解该事件?这些都是流程中需要回答的问题,并需要获得可靠的响应过程。流程必须中心化,并且可供参与工作负载的任何人使用。如果没有wiki
为云的数据库服务而不是自建关系型数据库的实例。 使用Serverless架构的云服务,将计算资源的安全交给华为云处理,减免了用户自行运维服务器带来的工作量和人为错误,减少了安全漏洞的风险。这样,用户能够将更多精力集中在业务逻辑和应用的安全性上。 相关云服务和工具 云数据库 RDS
在本步骤完成前文确认的系统负载、背景数据量与需要请求的用户数据模型等测试设计。 5.执行测试 使用所选的测试工具进行性能测试,测试涉及查看和记录性能指标、监控运行情况以及查看出现的任何性能问题,同时监控和收集性能指标,例如响应时间、吞吐量、CPU和内存利用率以及其他相关指标。 使用定义的测试方案将工作负载置于预期负载
储和带宽资源独占式的Kafka专享实例。 RabbitMq版:完全兼容开源RabbitMQ,提供即开即用、消息特性丰富、灵活路由、高可用、监控和告警等特性,广泛应用于秒杀、流控、系统解耦等场景。 RocketMQ版:低延迟、弹性高可靠、高吞吐、动态扩展、便捷多样的消息中间件服务。
开始,包括运行态、高可用架构等场景中得到应用。 可观测指标可以通过监控工具来实现,并允许在发生异常时发送警报。有很多监控工具可以使用,例如Prometheus、Grafana、Zabbix等,以及华为云提供的云监控服务CES。这些工具可以定期收集指标,提供可视化的指标报告,并且可以发送警报,以帮助组织及时发现问题。
容灾,当一个AZ异常时,另一个AZ节点不受影响,备节点会自动升级为主节点,对外提供服务。 监控告警 配合CES服务,支持对DCS的CPU、内存、磁盘、网络等进行监控和告警。详见“支持的监控指标”。 父主题: DCS分布式缓存服务
慢、内存泄露等亚健康故障。 备用检测:冗余系统中,主备用模块的故障都需要检测,避免静默故障。 有特殊寿命器件:应及时监控有特殊寿命(如本地硬盘)要求的期间健康状态,通过提前预警采取维护错误,避免故障的突然发生造成严重影响。 检测速度:需要根据业务综合要求,确定合适的检测速度。 检
这种ECS中的工作负载,需要检查ECS重启后业务是否能自动恢复。 对于依赖特殊资源的ECS,如本地盘、直通FPGA卡、直通IB卡等,不支持故障自动恢复,针对此类ECS需要检查是否可以替换为不依赖于这些特殊资源的ECS,以提高ECS的可用性。 对于ECS、BMS、MRS等实例,在使
当客户端请求超时或收到错误响应时,客户端需要决定是否重试;重试有助于客户端在请求失败时,通过重复消息来获得预期的结果,避免业务失败,但也会消耗更多的服务器时间来获取所需的成功响应。 风险等级 高 关键策略 请求超时,可能是链路闪断或其他临时性故障导致消息丢失,可以进行重试。 根据错误响应码进
进行跨AZ数据同步;如存在有状态数据的ECS实例不支持跨AZ高可用,但可通过SDRS服务进行跨AZ数据同步。 当应用组件对应的云服务实例不支持跨AZ高可用实例,且不支持跨AZ数据同步或不使用跨AZ数据同步服务时,则需要由应用层进行数据复制;如存在有状态数据的BMS实例。 相关云服务和工具
华为云提供AS弹性伸缩服务,可以根据伸缩组内的负载情况,及伸缩规则,自动调整ECS实例、带宽等资源。当业务需求增长时,AS自动增加弹性云服务器(ECS)实例或带宽资源,以保证业务能力;当业务需求下降时,AS自动缩减弹性云服务器(ECS)实例或带宽资源,以节约成本。 此外,华为云还提供了一些内嵌伸
在后端节点故障的情况下,需要自动将业务分发给其他健康节点处理,以避免业务失败。 相关云服务和工具 弹性负载均衡 ELB:支持业务负载均衡处理,还支持后端服务器健康状态检测,自动隔离异常状态的ECS。 父主题: RES13 过载保护
BMS裸金属服务 裸金属服务(Bare Metal Server,BMS)是一款兼具弹性云服务器和物理机性能的计算类服务,为企业提供专属的云上物理服务器,为核心数据库、关键应用系统、高性能计算、大数据等业务提供卓越的计算性能以及数据安全。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
MySQL到MySQL单主灾备”)或双主灾备(详见“MySQL到MySQL双主灾备”)。 监控告警 配合CES服务,支持对RDS的CPU、内存、磁盘、网络等进行监控和告警。详见“支持的监控指标”。 父主题: RDS云数据库
),或双主灾备(详见“GaussDB(for MySQL)到GaussDB(for MySQL)双主灾备”)。 监控告警 配合CES服务,支持对GaussDB(for MySQL)的CPU、内存、磁盘、网络等进行监控和告警。详见“支持的监控指标”。 父主题: GaussDB(for MySQL)云数据库
您是否使用考虑了不同的计费模式优化成本? 1. 了解云上不同计费模式的特点 2. 为工作负载选择合适的计费模式 3. 跟踪并监控权益商品的使用情况 COST07 您是否管理了和优化了资源使用情况? 1. 持续监控资源利用率指标 2. 释放闲置资源 3. 考虑不同的云资源技术选型 4. 降配低负载资源或升配高负载资源
则来自动增加/缩减业务资源。当业务需求增长时,AS自动增加弹性云服务器(ECS)实例或带宽资源,以保证业务能力;当业务需求下降时,AS自动缩减弹性云服务器(ECS)实例或带宽资源,以节约成本。AS支持自动调整弹性云服务器和带宽资源。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
能、可靠性影响,减少人工测试的错误和延迟。 监控和审计变更过程:追踪和记录变更执行情况,及时发现和解决问题,提供透明度和可追溯性。 相关云服务和工具 云运维中心 COC: 作业管理:提供用户自定义作业的创建、修改、删除以及在目标虚拟机上执行自定义作业的能力。通过该功能,用户可以通
KPI,识别关键指标和数据源。客户满意度可能是各种指标的组合,例如呼叫等待或响应时间、满意度评分以及提出的问题类型。 父主题: OPS08 度量运营状态和持续改进