检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ECS弹性云服务器 弹性云服务器(Elastic Cloud Server,ECS)是由CPU、内存、操作系统、云硬盘组成的基础的计算组件。弹性云服务器创建成功后,就可以像使用自己的本地PC或物理服务器一样,在云上使用弹性云服务器。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
应用层进行过载保护,保障优先业务的运行。 连接后端ECS失败 检测:网络连接失败。 恢复: 至少部署2个后端ECS。对于无状态业务,配置ELB弹性负载均衡保障业务可靠性;对于有状态业务,由应用层实现多实例高可用。 应用层进行重试,以应对暂时性故障,如ESC正在进行故障恢复时。应用故障重试处理可参考“故障重试”。
物理服务器上,以避免由于单台物理服务器故障而导致所有业务不可用的场景。 若ECS通过AS进行弹性伸缩时,则需要AS配置云服务器组反亲和,以避免AS自动创建的ECS运行在同一个物理服务器上。 若CCE集群节点或节点池采用弹性云服务器ECS时,建议配置云服务器组反亲和,以避免CCE集
使用CBR云备份服务可对ECS的备份保护服务,支持基于多云硬盘一致性快照技术的备份服务,并支持利用备份数据恢复ECS数据。详见“云备份概述”。 故障自愈 当ECS支持自动恢复时,可以开启自动恢复能力,当物理服务器损坏时以冷迁移方式重启ECS实例,使弹性云服务器具备高可靠性和强大的动
RES05-01 网络连接高可用 应用系统对外提供服务时,需要确保对外网络连接的高可用,避免单个网络连接中断而导致业务不可用。 风险等级 高 关键策略 网络链路冗余:网络连接需要支持多路径,以实现高可用能力,以避免在一条网络路径中断的情况下,业务能切换到其他路径继续通信。 网络链
活容灾,无缝实时切换。 后端服务器健康检查 ELB弹性负载均衡支持定期向后端服务器发送请求以测试其运行状态。当判断后端服务器健康检查异常后,就不会将流量分发到异常后端服务器,而是分发到健康检查正常的后端服务器,从而提高了业务的可靠性。当异常的后端服务器恢复正常运行后,负载均衡器会
SEC02-03 安全管理及使用凭证 在进行身份验证时,首要选择使用临时凭证而非长期或永久性凭证,以减少或消除因凭证意外泄露、共享或被盗而带来的风险。 风险等级 高 关键策略 长期凭证如用户的登录密码、永久AK/SK,短期凭证如临时AK/SK、通过委托获取的权限等。禁止将长期凭证
恢复: 根据业务情况,更换规格更高的BMS实例或增加BMS实例进行负荷分担。 应用层进行过载保护,保障优先业务的运行。 连接后端BMS失败 检测:网络连接失败。 恢复: 至少部署2个后端BMS。对于无状态业务,配置ELB弹性负载均衡保障业务可靠性;对于有状态业务,由应用层实现多实例高可用。
伸缩组的健康检查方式默认是“云服务器健康检查”方式,指伸缩组会定期使用云服务器健康检查结果来确定每个云服务器的运行状况。如果未通过云服务器健康检查,则伸缩组会将该云服务器移出伸缩组。 弹性负载均衡健康检查:是指根据ELB对云服务器的健康检查结果进行的检查。仅当伸缩组使用弹性负载均
定期咨询专家或 华为 合作伙伴,以便确定哪些服务和功能的成本更低。查看华为博客和其他信息源。如在非计算密集型场景,使用华为云的云耀系列服务器取代普通ECS服务器 父主题: COST07 管理和优化资源
在逻辑隔离的虚拟网络中定义和启动华为资源,方便管理、配置内部网络。 ER 将VPC和本地网络连接到一个网关中,支持路由学习、动态选路以及链路切换,极大的提升网络的可扩展性及运维效率,从而保证业务的连续性。 ESW 将VPC和本地网络连接到一个网关中(二层互联),助力企业客户灵活构建大规模、高性能、高可靠的云上/云下网络。
DCS的CPU /内存/带宽/连接数使用率过高 检测:通过CES监控CPU /内存/带宽/连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 应用层进行过载保护,保障优先业务的运行,如将部分性能要求不高的业务切回到原始数据源。 连接后端DCS失败 检测:连接失败。 恢复: 应用层
SEC03-01 定义权限访问要求 明确定义哪些人员或机器应当有权访问哪个组件,选择用于进行身份验证和授权的适当身份类型和方法。 风险等级 高 关键策略 使用IAM角色来定义应用程序和组件对资源的访问权限。通过构建最低权限访问模型,确保只授予必要的权限。根据用户的角色和职责分配权限,确保用户只能访问其工作所需的资源。
云中故障需要重试的典型场景有: 实例主备切换时可能会导致连接中断,如DCS、RDS实例由于某些原因主备切换时,会导致连接中断,需要客户端重试。 实例由于故障重启可能会导致通信中断,如ECS所在物理服务器由于硬件原因故障时,ECS重启或在其他物理服务器中自动恢复,恢复过程中与ECS的通信会中断,需要重试。 实例由于过载导致无法及时响应,需要重试。
客户端需要根据综合评估是否要重试 当客户端请求超时或收到错误响应时,客户端需要决定是否重试;重试有助于客户端在请求失败时,通过重复消息来获得预期的结果,避免业务失败,但也会消耗更多的服务器时间来获取所需的成功响应。 风险等级 高 关键策略 请求超时,可能是链路闪断或其他临时性故障导致消息丢失,可以进行重试。
码错误引入的安全风险。 风险等级 高 关键策略 发布团队常用编程语言的安全编码规范。通用的安全编码规范应包含程序输入校验、程序输出编码、身份验证、访问控制、安全加解密算法、异常处理、IO操作、文件上传、序列化、输出格式化等。 对于在Web应用场景使用的语言如Java、Python
针对数据分级分类结果,对每一类数据进行不同级别的数据保护控制,保护数据的机密性和完整性。 风险等级 高 关键策略 实施适当的数据保护措施,如加密和身份验证。 管理数据访问权限。了解谁可以访问、修改和删除数据,有助于限制数据访问权限,减少数据泄露风险。验证只有获得授权的用户按照“最小化权限”
服务中可以配置能创建的最大实例数量,而在过载情况下是否能真的创建出那么多实例,会依赖于ECS弹性云服务器配额、EVS云硬盘配额,当需要弹性公网IP时涉及弹性公网IP配额等,当配额不足时会导致无法创建工作负载进行业务分担,而业务受损。 父主题: RES13 过载保护
业务能力、网络每个部分的带宽满足业务高峰期的需要。 风险等级 高 关键策略 在设计网络拓扑时,仔细检查每个组件的连接要求,例如是否需要互联网可访问性(入站和出站)、连接到VPC的能力、边缘服务和外部数据中心等。除非资源必须接收来自公网的网络流量,否则不要将资源放置在VPC的公有子网中。
资源分组:资源分组支持用户从业务角度集中管理其业务涉及到的弹性云服务器、云硬盘、弹性IP、带宽、数据库等资源。从而按业务来管理不同类型的资源、告警规则、告警记录,可以迅速提升运维效率。 站点监控:站点监控用于模拟真实用户对远端服务器的访问,从而探测远端服务器的可用性、连通性等问题。 日志监控:日志