检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
病毒入侵、人为误删除、软硬件故障等场景,能够快速将数据恢复到备份点。 由于容灾通常对数据采用实时复制且没有多备份点,在主数据被误删或误改的情况下,错误数据会同步到备端,从而无法达到数据备份的效果,因此通常不能使用容灾来代替备份。 备份恢复时的RPO指标(即数据丢失量),与最近一个
应用多Region部署:对于可用性要求高的应用系统,需要考虑多Region部署,避免由于单个Region故障而导致所有业务中断。 在多AZ部署能满足需求的情况下,应优先使用多AZ部署。大多数工作负载的可用性目标都可通过在单个Region内多 AZ 部署来实现,只有工作负载具有极高的可用性要求或者
的故障检测与负载均衡,并可通过AS监控负载随时添加和移除ECS实例来扩展应用系统的服务能力;针对RDS for MySQL,可根据负载监控情况,自动扩缩规格或增删只读节点。 变更防差错 软件更新采用金丝雀或蓝绿部署,部署过程自动完成,在部署过程中出现问题时自动回滚。 应急恢复处理
的标准和规范。团队成员应遵守这些政策和流程,确保安全管理的一致性和有效性。 建立应急响应计划:开发和测试应急响应计划,以应对安全事件和紧急情况。团队应清楚知道如何应对安全威胁和处理安全事件。 父主题: SEC01 云安全治理策略
不配置健康检查,如果容器内应用程序异常,Pod将无法感知,也不会自动重启去恢复。最终导致虽然Pod状态显示正常,但Pod中的应用程序异常的情况。 父主题: RES10 故障隔离
会立刻导致系统失效,系统首先会因为Swap Memory不足变得运行缓慢,消耗内存量持续增加,因此通过监控实例内的内存占用率,在超过阈值的情况下及时告警,人工介入迅速恢复,可避免造成业务中断。 典型的亚健康场景有:通信链路丢包/错包、硬盘性能下降、CPU/内存过载等,当应用系统内
确保使相关人第一时间得知故障信息,以便快速组织应急响应。 预测:维护团队需要根据系统运行现状,通过数据分析、机器学习等方式,预测系统的风险情况,提前进行预防和处理。 在进行应急恢复处理时,通常需要尽快缓解或恢复业务,快速结束业务中断对客户的影响,然后再启动问题定位和修复处理流程,以减少业务中断时间。
用户感受系统为其服务所耗费的时间。不同业务系统的响应时间期望值不同,如互联网业务多为500ms以下、金融业务1s以下等。 可伸缩性 可伸缩性是系统自对齐软件功能的要求增加的情况下,继续实现其响应时间或吞吐量目标的能力。 吞吐量(TPS) 吞吐量反映处理能力,指系统在每单位时间内能处理多少个事务/客户请求/单位数据等。
避免启动依赖及循环依赖。若应用系统由于某些原因导致重启时,若依赖于其他依赖项启动或加载关键配置数据,可能会导致应用系统长时间停在启动状态而无法响应外部消息。针对这种情况,应用系统应该先使用缺省配置启动,再检查依赖项的状态或加载最新配置数据,以恢复正常运行。 父主题: RES08 依赖减少与降级
针对内部用户场景,资源足够,无需自动弹性伸缩;针对ECS,通过ELB实现ECS实例的故障检测与负载均衡,并可根据ECS监控情况随时添加和移除ECS实例来扩展应用系统的服务能力;针对RDS,可根据RDS负载监控情况,在维护时段更改实例类型或增加只读节点。 变更防差错 软件更新采用离线更新,在位替换,根据run
的流程框架来衡量成本优化活动的成果。 简单的成本优化量化目标/成果就是报告成本节省优化的费用, 例如,您可以建立报告,在不牺牲质量或产出的情况下,给公司或者组织带来多少成本的节省。 此外优化的量化目标也可以包含效率的提升,例如,从传统IT架构向容器化,Serverless迈进的过
使用安全的通信渠道传输密钥,如加密通道或者物理传输。 确保传输过程中密钥不被窃取或篡改。 使用密钥: 最小化密钥的使用范围,避免在不必要的情况下暴露密钥。 实施访问控制和权限管理,限制对密钥的访问。 存储密钥: 使用安全的存储设备或者加密存储来保存密钥。 确保只有授权人员可以访问密钥存储。
SDK获取指定服务的监控指标。 AOM服务提供了微服务应用和节点的关键指标监控能力。云容器工作负载关键指标在CSE服务中查看。函数服务关键指标在FunctionGraph控制台中查看。 3、资源监控 资源监控通常用于识别资源瓶颈分析系统性能问题。对应用系统资源进行监控时,需要先定义资源的关键
点,以实现自动横向扩缩容,自动增加资源容量,解决业务处理能力不足的问题,无需人工干预。 华为云提供AS弹性伸缩服务,可以根据伸缩组内的负载情况,及伸缩规则,自动调整ECS实例、带宽等资源。当业务需求增长时,AS自动增加弹性云服务器(ECS)实例或带宽资源,以保证业务能力;当业务需
ECS与RDS单节点部署。 备份 RDS自动备份,在数据故障时使用最新备份数据恢复,可以满足可用性目标要求。 容灾 不支持容灾部署,在站点故障的情况下,重新进行应用部署与备份数据恢复。 监控告警 进行简单的监控,检查应用系统是否能正常返回消息。 弹性扩缩容 提供常见故障处理runbook,以便在容量不足等场景可以手工扩容。
确定应用系统的关键组件;所谓关键组件是指一旦故障,会导致整个应用系统或其中的关键功能受损。 针对关键组件,检查其跨AZ高可用能力,即在一个AZ故障的情况下,是否能自动故障转移到另外一个AZ,进行业务恢复。 针对未支持跨AZ高可用的关键组件,可进行如下优化处理: 若云服务实例支持跨AZ高可用
变化。管理层&财务等利益相关人诉求变化,他们可能会对更细粒度的提出请求,定期和利益相关人确定并更新规范。 相关服务和工具 企业可在成本中心查看可分配成本比例,并通过该指标诊断标签覆盖率和牵引企业内部治理标签。 企业可通过成本中心、TMS、云服务控制台来识别和治理未打标签资源,标签Key&value错误
时,可以选择“弹性负载均衡健康检查”方式来做健康检查。如果将多个负载均衡器添加到伸缩组,则只有在所有负载均衡器均检测到云服务器状态为正常的情况下,才会认为该弹性云服务器正常。否则只要有一个负载均衡器检测到云服务器状态异常,伸缩组会将该弹性云服务器移出伸缩组。 以上两种健康检查方式
方法可以实现更严格的隔离和安全性。为每个账号分配最小必要权限,避免权限过度赋予。这有助于减少潜在的安全风险和权限滥用。针对需要跨账号访问的情况,使用适当的身份验证和授权机制,如跨账号委托、资源共享等。 多者结合:同时使用以上的两种或多种方式分隔工作负载。 相关云服务和工具 虚拟私有云
库服务;例如RDS for MySQL和GaussDB(for MySQL),在选取时应考虑更多因素,如性能等因素,这些因素可以从官方资料查看。 父主题: 选择合适的数据库资源