检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
均采用高可用部署。 备份 RDS、DDS数据库自动备份,有状态ECS通过CBR自动备份,在数据故障时使用最新备份数据恢复,可以满足可用性目标要求。 容灾 应用使用支持跨AZ的服务进行跨AZ部署,ELB、RDS跨AZ部署,AZ故障时自动恢复。有状态ECS通过SDRS进行跨AZ容灾,在AZ故障时手工切换。
升级不中断业务 软件版本在重新部署或升级过程中,需要尽可能避免业务中断,减少业务影响。 RES15-01 自动化部署和升级 RES15-02 自动化检查 RES15-03 自动化回滚 RES15-04 灰度部署和升级 父主题: 变更防差错
针对内部用户场景,资源足够,无需自动弹性伸缩;针对CCE容器,通过CCE进行负载均衡与弹性伸缩;针对GaussDB,可根据GaussDB负载监控情况,自动扩缩规格或增删只读节点。 变更防差错 软件更新采用离线更新与在线补丁,根据runbook进行应用的自动部署与回滚。每1~2个月更新一次软件。
日常的运维操作,故障修复,都可以通过代码实现并执行。 自动化是沉淀运维经验,建立标准运维最重要的一环,通过自动化,可以避免人为错误,标准化流程并提高效率。 即使在部分自动化流程中依然需要人工干预,例如决策点。在决策点前的自动化流程依然可以确认人员权限,向人员提供必要的上下文和信息
不同的实例类型针对不同的工作负载进行优化,例如CPU优化、内存优化和GPU优化,选择符合需求的实例类型。 考虑自动缩放 如果工作负载的需求不定,请考虑具有自动缩放功能的计算服务,该功能可根据需求自动调整计算容量。自动缩放有助于确保在高峰期拥有足够的资源,并防止在低需求时段过度预配。 考虑容器化 与非容器
故障恢复指恢复产品执行规定功能的能力,一般情况下恢复越快影响越小。 结合业务情况,综合考虑技术实现难度、技术方案复杂度、成本等设计合适的故障恢复方案: 自动恢复:对于影响业务的故障,系统应尽可能自动恢复自愈,如保护倒换、局部复位或系统服务等。 优先恢复:优先对故障发生概率高、故障影响大的故障进行恢复。 分级复位:提
性能看护 PERF06-01 分层看护 PERF06-02 性能劣化自动定界定位 PERF06-03 自动告警 父主题: PERF06 性能看护
应用内组件的高可用能力,在应用内部分节点故障时业务自动恢复能力 备份 应用数据被破坏的情况下的恢复能力 容灾 在Region/AZ/IDC或其他云站点发生灾难的情况下的恢复能力 监控告警 应用系统故障后的检测和告警能力 弹性扩缩容 应用容量不足时的自动恢复能力 变更防差错 变更对应用业务中断的影响
允许丢失数据量可以不同,即RPO不同;为了保证数据备份的RPO目标,需要采用定期自动备份,而不要依赖人工进行手工备份。 RES02-01 识别和备份应用中所有需要备份的关键数据 RES02-02 自动数据备份 RES02-03 定期进行备份数据恢复 父主题: 高可用设计
的预生产环境 3. 性能压测 4. 生产环境拔测 5. 混沌测试和演练 OPS04 自动化构建和部署流程是否完备? 1. 有效落地持续集成 2. 采用持续部署模型 3. 基础设施即代码 4. 自动化工程运维任务 OPS05 是否有运维准备和变更管理体系? 1. 进行生产准备度评审
如何进行性能优化? 设计优化 通用算法优化 WEB场景资源优化 大数据场景资源优化 PERF06 如何进行性能看护? 分层看护 性能劣化自动定界定位 自动告警 父主题: 性能效率支柱
RES09 故障重试 当应用系统部署在云中,虽然云具有一定的高可用和故障自动恢复能力,但对外仍会导致短时间的故障,需要应用系统能针对这种短时间故障进行适配处理,主要是采用重试机制。 云中故障需要重试的典型场景有: 实例主备切换时可能会导致连接中断,如DCS、RDS实例由于某些原因
结合组织的业务战略和风险承受能力。对于关键业务相关的数据,即使其本身不属于常见的敏感类型,也可能因其对业务的重要性而被评估为高敏感度。 借助数据发现和分类工具,自动扫描工作负载以识别数据。自动识别和分类数据可帮助您实施正确的控制措施。 创建并维护数据清单。将分级分类后的数据整理成清单,包括数据的名称、描述、来源、分
月度节省”高且“盈亏平衡时间”短) 按需转包年包月成本优化评估:自动识别客户长期按需使用的资源(比如ECS、EVS、RDS、ELB、SFS Turbo),生成按需转包年包月的优化建议和节省评估。 资源包购买建议:自动分析客户按需资源消耗和华为云在售资源包商品(比如OBS标准存储单
VE的时候,会fork一个进程,过大的内存会导致卡顿 具备降级或容灾措施 缓存访问失败时,具备降级措施,从DB获取数据;或者具备容灾措施,自动切换到另一个Redis使用。 建议 - 数据设计规范 分类 原则 原则说明 级别 备注 Key相关规范 使用统一的命名规范。 一般使用业务
SEC05 运行环境安全 SEC05-01 云服务安全配置 SEC05-02 实施漏洞管理 SEC05-03 减少资源的攻击面 SEC05-04 密钥安全管理 SEC05-05 证书安全管理 SEC05-06 使用托管云服务 父主题: 基础设施安全
COST08 进行架构优化 COST08-01 按地域规划应用架构 COST08-02 云原生架构改造 COST08-03 存算分离 COST08-04 Serverless探索 父主题: 成本优化支柱
得到广泛地传播,对已有事故的分析,应该得到记录,确保相关根因都得到充分理解,尤其重要的是制定有效的标准化流程/自动化工具来降低事故再次发生的可能性和影响,这些流程和自动化工具,也需要广而告之,以向团队解释清楚缘由。 父主题: OPS01 建立持续改进的团队文化和标准化的运维体系
尽而导致所有请求都不能处理的情况。 RES13-01 采用自动弹性扩缩容 RES13-02 应用系统负载均衡,避免流量不均匀 RES13-03 过载检测与流量控制 RES13-04 支持主动扩容 RES13-05 资源自动扩容考虑了配额限制 RES13-06 压力负载测试 父主题:
预案的准确性。 演练结束后需要对恢复过程进行回溯,并优化应急预案。 相关云服务和工具 云运维中心 COC:支持混沌演练,为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端的演练流程。 父主题: RES12 应急恢复处理