检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
基础概念 基本概念 名称 名词解释 FinOps FinOps 是 Finance 和 DevOps 的合成词,强调 IT、财务和业务团队必须协作,将财务责任引入云,并在速度、成本和性能之间做权衡时做出数据驱动的明智决策。
) 频繁调用函数、模块处理过程、数据组织等问题 并行处理资源争用引起的延迟 串行处理进程/线程间等待延迟 父主题: 性能效率支柱
云服务通用的故障模式有:CPU过载、内存过载、磁盘使用率过高、数据故障(被误删等)、AZ故障、Region故障等。 定义严酷度类别 严酷度是度量故障给系统造成的最坏潜在后果,一般分为四个等级:Ⅰ类(严重)、Ⅱ类(较严重)、Ⅲ类(一般)、Ⅳ类(轻微)。
OPS05 运维准备和变更管理 OPS05-01 进行生产准备度评审(Product Readiness Review) OPS05-02 进行变更风控 OPS05-03 定义变更流程 父主题: 卓越运营支柱
RES10-01 应用控制平面与数据平面隔离 RES10-02 应用系统多位置部署 RES10-03 采用Grid架构 RES10-04 健康检查与自动隔离 父主题: 故障快速恢复
相关云服务和工具 华为云大部分云服务支持创建多可用区实例,可实现在一个可用区故障时能自动快速切换,不影响实例对外提供服务,如ELB负载均衡、AS弹性伸缩、CCE容器集群、DCS实例、DMS消息服务、RDS数据库、GaussDB数据库等。 父主题: RES03 跨AZ容灾
C/C++语言:结合语言基础能力、编译技术、并发技术、高效数据结构与算法、高性能库及工具链辅助展开。 父主题: 应用性能编程规范
类别 应用可用性影响 冗余 应用内组件的高可用能力,在应用内部分节点故障时业务自动恢复能力 备份 应用数据被破坏的情况下的恢复能力 容灾 在Region/AZ/IDC或其他云站点发生灾难的情况下的恢复能力 监控告警 应用系统故障后的检测和告警能力 弹性扩缩容 应用容量不足时的自动恢复能力
当多次重试后仍无法写入成功,可将数据写入本地缓存,待服务可用后再写入实例。 当实例由于过载导致网络限制时,可参考“CPU /内存/带宽使用率过高”的处理。 父主题: DMS分布式消息服务
验证所有部署步骤是否按预期完成,如检查依数据、配置和服务。通过集成功能测试,和各种非功能测试以及运行状况检查等各种监控方法,进一步测试所有更改。 父主题: OPS03 完备的测试验证体系
全生命周期性能管理 全生命周期性能管理围绕需求、设计、开发、测试与编护完整的软件生周期展开,将性能活动内化到生命周期流程中,实现性能工作的常态化。 PERF01-01 全生命周期性能管理 父主题: PERF01 流程与规范
预测:维护团队需要根据系统运行现状,通过数据分析、机器学习等方式,预测系统的风险情况,提前进行预防和处理。 在进行应急恢复处理时,通常需要尽快缓解或恢复业务,快速结束业务中断对客户的影响,然后再启动问题定位和修复处理流程,以减少业务中断时间。
日志数据服务间集成:日志转储OBS/DWS/DIS/DLI/DMS,助力用户快速构建水平解决方案。 父主题: 卓越运营云服务介绍
共享资源: 采取共享资源的设计,通过协作减少争用延时从而改善整体性能;如多个进程可以从一个数据库的同一部分读取。 并行处理:当并行处理过程的增速能抵消通信开销和资源争用延迟时,执行并行处理。
而整个团队的成员需要包含相关决策部门和实施部门的人员,典型的团队成员通常包括来自企业的核心决策者(CXO),财务、开发,运维/运营,数据分析团队的人员。
设计建议 父主题: OPS07 进行故障分析和管理
对变更记录进行留存,便于后续变更数据的运营与分析。 设计建议 父主题: OPS05 运维准备和变更管理
混合云网络:对于自建本地数据中心(IDC)或使用其他云的用户,基于业务发展需要将部分业务部署到华为云时,将涉及到混合云网络互连;应用系统跨云部署时(如跨云主备容灾或双活),需要构建高可用的混合云网络连接,以减少由于网络连接中断而导致的业务中断。
相关云服务和工具 统一身份认证服务 IAM 父主题: SEC03 权限管理
制定恢复策略,逐步恢复受影响服务,确保数据和系统一致性,进行测试确保所有系统恢复正常运作。 进行事件后分析,总结事件的起因、响应过程和教训。更新事件响应计划,根据经验教训进行改进。 定期审查和更新事件响应计划,以适应新的威胁和业务需求。