检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
设计原则 由于故障不可避免,如硬件故障、软件错误、网络延迟、突发流量等,因此在设计高可用应用系统时,必须考虑所有的硬件及系统包括的软件都可能会失效,包括IaaS、PaaS、SaaS及应用系统本身。韧性设计的目标不是试图防止这些故障的发生,而是为了在这些故障发生时,能最大程度地减轻
OPS05 运维准备和变更管理 OPS05-01 进行生产准备度评审(Product Readiness Review) OPS05-02 进行变更风控 OPS05-03 定义变更流程 父主题: 卓越运营支柱
COST05-03 定期回顾和审核 风险等级 高 关键策略 为了让云上应用始终最具成本效益,推荐您定期对其进行回顾和审核,以了解是否有机会实施新的优化措施。 回顾和审核可以基于成本分配的原则,在应用级别执行,持续审核组织为每个云上应用付出的总体成本。通过综合考虑云资源成本,研发成本,运营管理成本(如托管服务
COST02 实施预算规划管理机制 COST02-01 建立云预算与预测流程 COST02-02 精细化预算管理和跟踪 父主题: 成本优化支柱
云日志服务(LTS) 云日志服务(Log Tank Service,简称LTS)是高性能、低成本、功能丰富、高可靠的日志平台,提供全栈日志采集、百亿日志秒搜、PB级存储、日志加工、可视化图表、告警和转储等功能,满足应用运维、等保合规和运营分析等应用场景需求。 云日志服务提供多种接
SEC10-01 建立安全响应团队 建立安全事件响应团队,明确各角色与职责。 风险等级 高 关键策略 安全事件响应团队一般包含如下角色及职责: 安全响应专家:主导网络安全事件调查,负责对事件进行定级、通报、攻击溯源以及确定影响范围,制定应急处置措施,推动服务控制风险。 攻击溯源专
OPS07 进行故障分析和管理 OPS07-01 创建可操作的告警 OPS07-02 创建监控看板 OPS07-03 支持事件管理 OPS07-04 支持故障恢复流程 父主题: 卓越运营支柱
RES11-01 混沌测试 混沌工程(Chaos Engineering)是通过故障注入的方式,触发或模拟实际故障,验证系统的稳定性和容错保护能力。 风险等级 高 关键策略 在真实环境中测试。 作为CI/CD管道的一部分例行执行。 主动注入故障,以便在问题发生前提前发现并解决问题。
性能效率支柱 性能效率支柱简介 基础概念 设计原则 问题和检查项 PERF01 流程与规范 PERF02 性能规划 PERF03 性能建模 PERF04 性能分析 PERF05 性能优化 PERF06 性能看护 云服务性能优化介绍
成本优化支柱 成本优化支柱简介 基础概念 设计原则 问题和检查项 COST01 规划成本优化相应的组织机构和流程 COST02 实施预算规划管理机制 COST03 对成本进行分配 COST04 持续进行成本治理 COST05 优化指定策略和目标 COST06 使用不同计费模式优化成本
性能效率支柱简介 如何设计出高性能的架构是一个普遍性的问题。作为基本的质量属性,性能的重要性和性能失败后果的严重性是毋庸置疑的,实际上公司内外都有很多性能失败的例子。本文试图为性能设计、性能优化提供一些技术方法和手段,这些方法手段可以用于系统的软件性能工程建设,也可用于指导性能调整和优化。
卓越运营支柱 卓越运营支柱简介 基础概念 设计原则 问题和检查项 OPS01 建立持续改进的团队文化和标准化的运维体系 OPS02 通过CI/CD实现高效的频繁可逆的小规模变更 OPS03 完备的测试验证体系 OPS04 自动化构建和部署流程 OPS05 运维准备和变更管理 OPS06
RES12-01 组建应急恢复团队 为了应对紧急故障场景,需要组建应急恢复团队,明确责任人,并进行培训。 风险等级 高 关键策略 组建应急恢复团队:其中包括应急恢复主席及所有组件及关键依赖项的恢复责任人。 应急恢复主席:在出现问题后及时组织应急恢复团队进行快速恢复处理。 组件或关
基础概念 基本概念 名称 名词解释 FinOps FinOps 是 Finance 和 DevOps 的合成词,强调 IT、财务和业务团队必须协作,将财务责任引入云,并在速度、成本和性能之间做权衡时做出数据驱动的明智决策。 CFM 华为云云财务管理(Cloud Financial
RES04-03 容灾恢复过程自动化 由于容灾恢复场景涉及容灾站点的业务恢复、数据库的主备切换、业务到容灾站点的流量切换等,恢复过程比较复杂,因此需要提供容灾管理功能,实现容灾状态及RPO监控,以及灾难场景下的一键式自动切换,减少人工干预。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。
RES12-03 定期应急恢复演练 定期测试突发事件应急恢复处理,以便在出现问题后能进行高效的恢复处理。 风险等级 高 关键策略 每年至少进行一次应急恢复演练;通过演练可提升操作人员的熟练程度。 演练期间严格按照应急预案进行恢复,以检验应急预案的准确性。 演练结束后需要对恢复过程进行回溯,并优化应急预案。
PERF02-01 定义性能目标 风险等级 中 关键策略 建立性能目标是实现工作负载性能效率的重要步骤。性能目标定义了工作负载所需的性能级别,并帮助衡量实现这些目标的有效性。性能目标提供了衡量和比较工作负载效率的基准。此基准可帮助你突出显示改进领域。这些目标还使任务与组织的目标保
SEC01-03 梳理资产清单 梳理工作负载涉及的服务器、IP地址、域名、数据库、证书等全量云资源的资产清单,给资源打上标签,从而在出现安全事件时,能快速定位到有安全风险的资源。 风险等级 高 关键策略 设计态与运行态一致性:对照设计态的架构图、架构文档实施云服务资源。工作负载运行时的架构始终保持与设计态一致。
问题和检查项 问题 检查项/最佳实践 PERF01 如何确立流程与规范? 全生命周期性能管理 应用性能编程规范 PERF02 如何进行性能规划? 定义性能目标 容量规划 PERF03 如何进行性能建模? 选择合适类型的计算云服务 选择合适规格的虚拟机和容器节点 使用弹性伸缩 选择合适类型的网络云服务
OPS02-01 进行需求管理和迭代开发 风险等级 高 关键策略 您的云上应用要达到卓越运营,从设计和开发阶段就需要保证可用性,可恢复性,同时也需要保证代码的质量。您需要评估和了解软件DFX相关要求,包括可靠性、性能、可服务性、可运维性、可交付性等要求 将监管、行业和内部合规性要