检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES09-02 客户端需要根据综合评估是否要重试 当客户端请求超时或收到错误响应时,客户端需要决定是否重试;重试有助于客户端在请求失败时,通过重复消息来获得预期的结果,避免业务失败,但也会消耗更多的服务器时间来获取所需的成功响应。 风险等级 高 关键策略 请求超时,可能是链路闪
数据备份和恢复 使用CBR云备份服务可对ECS的备份保护服务,支持基于多云硬盘一致性快照技术的备份服务,并支持利用备份数据恢复ECS数据。详见“云备份概述”。 故障自愈 当ECS支持自动恢复时,可以开启自动恢复能力,当物理服务器损坏时以冷迁移方式重启ECS实例,使弹性云服务器具备高
物理服务器上,以避免由于单台物理服务器故障而导致所有业务不可用的场景。 若ECS通过AS进行弹性伸缩时,则需要AS配置云服务器组反亲和,以避免AS自动创建的ECS运行在同一个物理服务器上。 若CCE集群节点或节点池采用弹性云服务器ECS时,建议配置云服务器组反亲和,以避免CCE集
ECS弹性云服务器 弹性云服务器(Elastic Cloud Server,ECS)是由CPU、内存、操作系统、云硬盘组成的基础的计算组件。弹性云服务器创建成功后,就可以像使用自己的本地PC或物理服务器一样,在云上使用弹性云服务器。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
Kafka性能优化 优化客户端配置 生产者配置建议 可参考配置建议。 消费者配置建议 参数 推荐值 说明 max.poll.records 500 消费者一次能消费到的最大消息数量,默认为500,如果每条消息处理时间较长,建议调小该值,确保在max.poll.interval.ms时间内能完成这一批消息的处理。
伸缩组的健康检查方式默认是“云服务器健康检查”方式,指伸缩组会定期使用云服务器健康检查结果来确定每个云服务器的运行状况。如果未通过云服务器健康检查,则伸缩组会将该云服务器移出伸缩组。 弹性负载均衡健康检查:是指根据ELB对云服务器的健康检查结果进行的检查。仅当伸缩组使用弹性负载均
set一次设置多个,同时这样存储也能节省内存。 设置合理的过期时间。 合理设置Key的过期时间,将过期时间打散,避免大量Key在同一时间点过期。 建议 设置过期时间时,可以在基础值上增减一个随机偏移值,避免在同一个时间点大量Key过期。大量Key过期会导致CPU使用率冲高。 命令使用规范
重试需要避免造成流量压力 对于链路闪断等原因导致的临时性故障,客户端进行一定的重试,可取得较好的效果;对于流量过载等原因导致的故障,重试可能会导致情况进一步恶化,因此需要避免这种影响。 风险等级 高 关键策略 客户端进行重试处理时,建议: 增加指数回退和抖动方法,以避免对服务端造成流量压力;采用指
实例由于故障重启可能会导致通信中断,如ECS所在物理服务器由于硬件原因故障时,ECS重启或在其他物理服务器中自动恢复,恢复过程中与ECS的通信会中断,需要重试。 实例由于过载导致无法及时响应,需要重试。 RES09-01 API及命令调用需要设计为可重试 RES09-02 客户端需要根据综合评估是否要重试
可靠性功能 数据备份和恢复 使用CBR云备份服务可对BMS的所有云硬盘(系统盘和数据盘)进行备份,支持基于多云硬盘一致性快照技术的备份服务,并支持利用备份数据恢复裸金属服务器数据,最大限度保障用户数据的安全性和正确性,确保业务安全。详见“备份裸金属服务器”。 集群HA 配合共享云
考“故障重试”。 当ECS由于过载导致网络限制时,可参考“ECS的CPU /内存/磁盘容量/磁盘IOPS使用率过高”的处理。 ECS实例不可用或运行异常 检测:配置ELB弹性负载均衡器的后端服务器健康检查,以便定期检查后端服务器的运行状态。健康检查应检查关键功能是否能正确响应。
确保敏感数据在云侧和客户端之间传输时是加密的状态,即使数据被窃取,也难以解密。 端到端加密:采用端到端加密的方式,确保数据在传输的整个过程中都是加密的,从数据生成端到数据接收端都能保持加密状态。对于Web应用的API,必须使用HTTPS来加密客户端和服务器之间的通信。 数据完整
风险等级 中 关键策略 定期咨询专家或 华为 合作伙伴,以便确定哪些服务和功能的成本更低。查看华为博客和其他信息源。如在非计算密集型场景,使用华为云的云耀系列服务器取代普通ECS服务器 父主题: COST07 管理和优化资源
自动化资产盘点:使用安全云服务或工具来自动发现和记录云上资源,包括主机、存储、数据库、网络等。这样可以确保资产清单的及时性和准确性。 标签和元数据:使用标签和元数据来对云资源进行分类和描述,以便更好地组织和管理资源清单。通过标签可以快速识别和过滤资源,有助于监控和安全审计。 相关云服务和工具 解决方案工作台
OPS06-03 制定和实施可观测性指标 风险等级 高 关键策略 指标是对时间周期内的测量数据的数值表示。可观测性指标是围绕发现率、定级准确率、定界时长、覆盖率、有效率、 一致率打造可观测能力,将可观测设计规范统一发布,统一设计要求与运维管理要求。 设计建议 整体技术方案会变成标
应用组件多位置部署 云服务器反亲和 RES02 您如何备份应用程序中的关键数据? 识别和备份应用中所有需要备份的关键数据 自动数据备份 定期进行备份数据恢复 RES03 您如何对应用程序进行跨AZ灾难恢复? 集群跨AZ部署 跨AZ数据同步 对接容灾仲裁,支持自动切换 支持容灾管理 RES04
TTL 和 max-length 来限制队列长度。如果队列长度达到 max-length 值,队列头部的消息会被丢弃或进入死信队列。消息的生存时间到期也会被丢弃或者进入死信队列。 关注队列个数 在 RabbitMQ 中,一条队列是由一个线程处理的。利用服务器的多核特性和分布式特性建立多条队列,将不同队列分布到不同
存更长时间。 资源分组:资源分组支持用户从业务角度集中管理其业务涉及到的弹性云服务器、云硬盘、弹性IP、带宽、数据库等资源。从而按业务来管理不同类型的资源、告警规则、告警记录,可以迅速提升运维效率。 站点监控:站点监控用于模拟真实用户对远端服务器的访问,从而探测远端服务器的可用性、连通性等问题。
对接、业务监控、应用监控、线下 IDC 监控和线下中间件监控 网络性能 管理监控 功能:对客户端 - 网 - 边 - 云全链路网络进行监控,帮助用户及时发现网络故障,全面掌握网络的实时状况。主要关注:应用响应时间、DNS 解析时间、TCP 建连时间、访问流量等指标 父主题: OPS06
故障后,快速切换到备节点并自动恢复,在异常检测和恢复期间,可能会影响业务,时间在半分钟内。 数据备份和恢复 DCS支持将当前时间点的实例缓存数据备份并存储到OBS中,以便在缓存实例发生异常后能够从备份数据进行恢复。DCS实例支持定时和手动两种备份方式,定时备份频率以天为单位,最多