检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
、弹性优化、成本优化的功能。 全场景支持,适合在线业务、深度学习、大规模成本算力交付等。 节点自动伸缩 CCE突发弹性引擎(对接CCI) 将Kubernetes API扩展到无服务器的容器平台(如CCI),无需关心节点资源。 适合在线突增流量、CI/CD、大数据作业等场景。 CCE容器实例弹性伸缩到CCI服务
OPS05-03 定义变更流程 风险等级 高 关键策略 在建立标准的变更管理流程前,清晰明白变更各个流程的定义: 变更发起:在变更发起前,需明确变更内容与变更原因等信息。信息的明确可减轻变更评估人的工作量,同时明确变更的意义。变更信息包括: 基本信息:标题、时间、变更人、原因等。 变更信息:变更系统、变更场景、变更类型等。
用程序。 手动管理基础设施既耗时又容易出错,尤其是在大规模管理应用程序时。 风险等级 高 关键策略 使用声明式工具:与命令式工具相比,声明式工具是部署和管理 IaC 的更好的整体选择。声明性工具对其定义文件使用更简单的语法,仅定义部署完成后所需的环境状态。命令式工具需定义达到所需
容灾恢复过程自动化 由于容灾恢复场景涉及容灾站点的业务恢复、数据库的主备切换、业务到容灾站点的流量切换等,恢复过程比较复杂,因此需要提供容灾管理功能,实现容灾状态及RPO监控,以及灾难场景下的一键式自动切换,减少人工干预。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。
OPS02-02 关联源代码版本和部署的应用版本,使用代码质量最佳实践 风险等级 高 关键策略 在代码开发阶段,需要开展代码协作设计和管理。使用现代化的代码仓管理代码,确保代码合并后,代码将保持一致,并且不会丢失任何更改。通过正确的版本控制,同时,现代化的代码仓可以方便设置代码版本,关联
架构,是采用数据备份,还是冷备、温备、热备。 恢复点目标RPO:指灾难发生后应用数据丢失的最大时间。RPO决定了数据备份频率或复制方式,是在线备份还是离线备份,是同步复制还是异步复制。 国家标准《信息系统灾难恢复规范》(GB/T 20988-2007)中灾难恢复等级与RTO/RPO的关系如下:
回滚过程中的业务中断,提升系统可用性。 风险等级 高 关键策略 通过金丝雀部署、蓝绿部署等方式实现灰度升级或部署,逐步引入新版本部署范围或切换用户流量,配合自动回退以降低部署差错导致业务中断的风险。 金丝雀部署(灰度发布)是将少量客户引导到新版本的做法,通常在单个服务实例(Can
监控告警、应用高可用等多维度设计演练场景,先测试、后攻防、再突袭逐步递进式的开展演练。通过持续演练,对架构高可用、监控、PRR 等能力做“在线验证”,实现持续性的动态风险治理。混沌演练和高可用设计共同成为系统稳定性的“双引擎”。 系统风险消减、业务快速恢复:分析系统潜在风险(故障
OPS07-03 支持事件管理 风险等级 高 关键策略 事件(incidents)是需要干预的事情。当发生事故(incidents)时,通过流程来处理。如何与团队沟通活动的状态?谁负责响应处置?使用哪些工具来缓解该事件?这些都是流程中需要回答的问题,并需要获得可靠的响应过程。流程
消息认证码(MAC)等方法来验证数据的完整性,以确保数据在传输过程中没有被篡改。 相关云服务和工具 虚拟专用网络 VPN 云专线 DC 云连接服务 CC 数据快递服务 DES 云证书管理 CCM 父主题: SEC07 通用数据安全
OPS06-07 通过可观测性指标引入自动化措施 风险等级 高 关键策略 可观测与自动化运维工具联动,实现自动化的故障检测、恢复及弹性伸缩等功能,进一步提升运维响应速度和准确性,降低人为干预带来的延误,甚至错误。 父主题: OPS06 可观测性体系
使用应用负载均衡时,七层负载均衡更换为安全的证书。 启用VPC流量日志。VPC流日志功能可以记录虚拟私有云中的流量信息,帮助用户优化安全组和防火墙控制规则、监控网络流量、进行网络攻击分析等。关于安全日志更多见:SEC09-01 实施标准化管理日志 相关云服务和工具 VPC、VPCEP 企业路由器
使用第三方工具进行安全性分析:使用第三方静态代码分析工具和依赖关系检查工具来识别常见的安全问题和漏洞,确保代码的安全性和合规性。 应用其他测试方法:除了工具的使用,还需要在应用程序级别进行测试,如使用模糊测试来查找和修复潜在的漏洞和错误。 相关云服务和工具 企业主机安全 HSS 父主题: SEC05 运行环境安全
变更防差错 在系统的运行过程中,配置变更是导致生产系统不可用的重要风险之一,如配置修改、工作负载手工增缩或补丁安装等。当变更失败时,可能会导致性能下降或业务中断等严重的问题。因此为了降低变更带来的业务风险,需要为工作负载或其环境的更改做好准备,实现工作负载的可靠操作。 变更操作属
OPS05 运维准备和变更管理 OPS05-01 进行生产准备度评审(Product Readiness Review) OPS05-02 进行变更风控 OPS05-03 定义变更流程 父主题: 卓越运营支柱
RES14-01 变更防呆检查 防呆是一种预防矫正的行为约束手段,运用防止错误发生的限制方法,让操作者不需要花费注意力、也不需要经验与专业知识,凭借直觉即可准确无误地完成的操作。 风险等级 高 关键策略 通过以下约束和检查,可减少配置差错: 角色约束:通过权限控制设计预防对不同角
RES14-03 变更前数据备份 通过配置数据事前备份与恢复设计,确保在出现配置错误时能够快速恢复到正确的配置数据状态。 风险等级 高 关键策略 进行全量数据备份,以防变更过程中数据被破坏,影响业务。 异常回滚时,可使用备份数据进行恢复。 父主题: RES14 配置防差错
提供runbook进行标准化变更 runbook是指运行手册,是用来实现变更的详细操作过程。 变更前需提供标准化runbook用于变更和回退,变更过程中严格按照runbook执行,在变更失败时根据runbook进行回退。 风险等级 高 关键策略 runbook需涵盖变更前检查、变更操作、变更后检查及变更失败回退操作。
或ELB跨AZ负载均衡能力,实现跨AZ高可用,在一个可用区故障时能自动快速切换。 对于有状态ECS实例,或BMS实例,建议从应用层实现跨AZ容灾,支持跨AZ自动切换或通过容灾管理工具实现自动化容灾切换,减少灾难发生时的人工操作。 对于已部署的应用系统改造为跨AZ实例的实施步骤:
风险等级 高 关键策略 云服务的关键操作包含高危操作(如创建IAM用户、删除IAM用户、重启虚拟机、变更安全配置等)、成本敏感操作(创建、删除高价资源等)、业务敏感操作(网络配置变更等)。 启用关键操作通知功能。启用云审计服务CTS的关键操作通知功能后,CTS会对这些关键操作通过消