检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
设计建议 整体技术方案会变成标准并进行发布,各个业务系统架构师在设计时遵循这套标准,这样可以保证能力能够从设计态开始,包括运行态、高可用架构等场景中得到应用。 可观测指标可以通过监控工具来实现,并允许在发生异常时发送警报。有很多监控工具可以使用,例如Prometheus、Grafana、
理、预案执行、回滚、故障解决等的关键人与关键时间点,保证信息尽可能的客观、准确。 Analyze(分析):分析故障的根本原因及故障处理过程中优化点。 Summary(总结):总结本次故障及处理故障的过程。进行故障定性、故障定责及总结本次故障带来的经验教训并举一反三。 Action
S自动创建的ECS运行在同一个物理服务器上。 若CCE集群节点或节点池采用弹性云服务器ECS时,建议配置云服务器组反亲和,以避免CCE集群中的ECS节点运行在同一个物理服务器上。 相关云服务和工具 弹性云服务器 ECS:云服务器组 弹性伸缩服务 AS 云容器引擎 CCE 父主题:
的好处(例如分析时间与应用成本成正比)以及相应的成本是否带来正向的营收。 回顾和审核的频率应该综合考虑多种因素,包括成本优化在企业或者组织中的重要性,测试和验证成本,应用的复杂性和优化变更的难易程度。同时,在每次回顾和审核时,持续改进流程,例如,通过降低测试和变更的成本从而提升整
数据加密服务 DEW:DEW与OBS、云硬盘(EVS)、镜像服务(IMS)等服务集成,可以通过密钥管理服务(KMS)管理这些服务的密钥,并对云服务中的数据进行加密,还可以通过KMS API完成本地数据的加密。 父主题: SEC07 通用数据安全
虚拟机HA:当ECS不依赖于特殊资源时,可以支持虚拟机故障自动恢复功能,在其所在物理服务器故障的情况下,可以自动在其他物理服务器上重启;对于部署在这种ECS中的工作负载,需要支持虚拟机重启后业务自动恢复的功能,并能容忍虚拟机HA期间业务处理性能短暂下降或中断。 对已部署的应用系统,改造为支持高可用能力的实施步骤:
限流:在系统过载时主动丢弃部分业务请求。 降级:在系统过载时提供有损服务,通过减少非核心业务,降低业务质量等措施降低系统负载。 熔断:在分布式系统中,应用调用第三方资源和服务时由于第三方资源和服务故障(包括过载)而失败,停止调用远程资源和服务,避免故障扩散。 相关云服务和工具 华为云提供
使用安全的随机数生成器来生成密钥,确保密钥的随机性和不可预测性。避免使用弱密钥或者固定密钥。 传输密钥: 使用安全的通信渠道传输密钥,如加密通道或者物理传输。 确保传输过程中密钥不被窃取或篡改。 使用密钥: 最小化密钥的使用范围,避免在不必要的情况下暴露密钥。 实施访问控制和权限管理,限制对密钥的访问。 存储密钥:
了自动备份和手工备份功能,建议设置自动备份策略进行备份。 此外,用户也可使用第三方备份软件进行备份。 华为云中云服务的数据备份到OBS存储中,可高度保障用户的备份数据安全。 相关云服务和工具 云备份 CBR 云数据库 RDS 分布式缓存服务 DCS 父主题: RES02 备份
混沌工程度量指标 故障场景的覆盖率:分析故障场景的覆盖率,例如容灾场景覆盖 80%,过载场景覆盖 60%。 故障场景的命中率:分析故障场景中,真实发生的比率。 应急预案的质量:用于度量应急预案有效性和执行效率。 风险发现个数与等级:定期评估分析(季度或年度)主动发现的风险数量和级别。
模块时非敏感场景可以适当使用开源模块。 标准化人工步骤:如果存在与部署和维护相关的人工步骤,要尽可能减少这类活动。在运维指南和标准操作程序中,清楚地记录人工步骤,并实现标准化,以确保安全、一致地执行任务。 回收闲置资源:由于配置管理工具及其限制等原因,有时 IaC 工具无法自动删除资源。例如,假设需要从虚拟机迁移到