检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
指基于对复杂系统外部输出的了解,能够了解其内部状态或状况的程度。系统越可观测,定位问题根本原因的过程就越快速越准确,而无需进行额外的测试或编码。 风险等级 高 关键策略 可观测体系是围绕确定性恢复命题展开的,决定了确定性恢复能力构建与 SLO 达成。可观测体系能够直接决定一些故障的恢复时长,如下图所示,MTTR
设计原则 国际标准化组织(ISO)对计算机系统安全的定义为:确保信息资产(包括硬件、软件、网络、数据等)受到保护,以确保其机密性、完整性和可用性。计算机系统安全的目标是保护信息系统免受未经授权的访问、使用、披露、破坏、修改、中断或不可用的威胁,同时确保信息系统能够持续地提供服务。
OPS06-06 实施分布式跟踪 Trace是一系列因果相关的分布式事件的表示,这些事件编码了流经分布式系统的端到端请求流。 风险等级 高 关键策略 当系统出现问题时,需要能够追踪系统中每个组件的行为和交互情况。通过在系统中实现分布式跟踪,可以快速定位问题并进行有效的故障排除。 设计建议
端到端跟踪请求消息 RES08 您如何减少依赖影响? 减少强依赖项 依赖采用松耦合 减少被依赖项故障的影响 RES09 您如何进行重试? API以及命令调用需要设计为可重试 客户端需要根据综合评估是否需要重试 重试需要避免造成流量压力 RES10 您如何进行故障隔离? 应用控制平面与数据平面隔离
OPS05-03 定义变更流程 风险等级 高 关键策略 在建立标准的变更管理流程前,清晰明白变更各个流程的定义: 变更发起:在变更发起前,需明确变更内容与变更原因等信息。信息的明确可减轻变更评估人的工作量,同时明确变更的意义。变更信息包括: 基本信息:标题、时间、变更人、原因等。
需要充分了解业务要求以及预期将提供的服务质量。 需要与业务利益干系人共同关键功能的体验要求,而不是只关注技术指标。通过明确地说明性能需求来控制性能,说明要足够明确,以便可以定量地确定软件系统是否满足该目标。具体要求: 定义明确的性能需求目标 避免使用定性的、模糊的性能目标 为每个性能场景定义一个或多个目标
资源编排服务(RFS) 资源编排服务是完全支持业界事实标准Terraform(HCL + Provider)的新一代云服务资源终态编排引擎,在应用编排服务(AOS)基础上实现了生态、体验、特性的全新升级;资源编排服务基于业界开放生态HCL语法模板,实现云服务资源的自动化批量构建,
和架构设计、实现方案设计及编码实现上采取有效的技术手段来保证。 一般认为,性能问题通常由于体系架构或设计问题造成,而不是低效的编码引起的。性能问题在开发过程的早期已经引入,而大部分开发团队直到集成测试,或更晚的时候才予以考虑。实际情况并非完全如此,编码实现阶段引入的性能问题也很普
使用代码检视工具来辅助检视过程,例如静态代码分析工具,以帮助发现潜在的问题。 确保团队熟悉并能有效使用这些工具。 设定清晰的标准和准则: 制定明确的代码检视标准和准则,以便检视者能够一致地评估代码质量。 着重关注安全性方面。 分配角色和责任: 确定谁将参与代码检视,例如开发人员、架构师、安全专家等。
恢复点目标RPO:指灾难发生后应用数据丢失的最大时间。RPO决定了数据备份频率或复制方式,是在线备份还是离线备份,是同步复制还是异步复制。 国家标准《信息系统灾难恢复规范》(GB/T 20988-2007)中灾难恢复等级与RTO/RPO的关系如下: 灾难恢复能力等级 能力要求 RTO RPO
系统,从而缓解或消除安全威胁。 风险等级 高 关键策略 依据系统的安全设计文档,通过验证确保安全措施被正确地集成到系统中,并符合最佳实践和标准。 尽早检视系统的代码(此过程称为代码白盒安全检视),确保代码符合安全最佳实践,避免在后续阶段发现严重的安全漏洞。 利用安全测试工具进行静
SEC01-02 建立安全基线 建立符合合规性要求、行业标准和平台建议的安全基线,安全基线是团队内对安全的底线要求。根据基线定期衡量您的工作负载架构和运行情况,持续保持或改善工作负载的安全状况。 风险等级 高 关键策略 确定合规性要求:了解您的工作负载必须符合的组织、法律和合规性要求。
商不断更新,随着平台的发展而变得更加有用。 标准化模块化方案:模块可以使基础设施部署可重复,标准化有助于确保模块的构建能够满足特定目标。建议使用模块来封装复杂的配置或资源组合。此外,在开发新模块时非敏感场景可以适当使用开源模块。 标准化人工步骤:如果存在与部署和维护相关的人工步骤
上线前进行生产准入审视。 具备以下核心价值: 1)准确评价产品可用性、维护能力并明确相关上线标准;不满足上云标准的服务,原则上不允许上线。 2)持续导入服务可服务性、运维需求基线,实现标准化、减少例外操作,帮助服务快速上云。 3)持续提升自动化验证能力,减少手工评估,提升产品的交付与运维效率。
在总结经验上,应该将相关经验进行标准化的沉淀,即将经验总结成自动化工具,流程以及建立相应的组织体系,我们称之为标准化运维体系。非标是大规模运维的头号天敌,主要表现是运维无序,团队成员依靠自身技术各自为战,处于被动响应和疲于应付的工作状态,效率低下,人为失误多,故障处理难度大。标准化运维体系是对有
下一章节进行详细描述。 问题 检查项/最佳实践 OPS01 您是否已经建立持续改进的团队文化和标准化运维体系? 1. 建立持续学习和改进的文化 2. 规划标准化的运维组织 3. 规划标准化的运维流程与运维工具 OPS02 您是否通过CI/CD实现高效的频繁可逆的小规模变更? 1.
率、 一致率打造可观测能力,将可观测设计规范统一发布,统一设计要求与运维管理要求。 设计建议 整体技术方案会变成标准并进行发布,各个业务系统架构师在设计时遵循这套标准,这样可以保证能力能够从设计态开始,包括运行态、高可用架构等场景中得到应用。 可观测指标可以通过监控工具来实现,并
源和服务,避免故障扩散。 相关云服务和工具 华为云提供了一些内嵌流控保护的云服务,用户可直接配置使用: API网关 APIG:支持配置流控策略,用户可指定单位时间内的单个API、单个用户或单个APP的请求次数上限。 微服务引擎 CSE:支持限流,用户可指定一定时间内可接受的请求次数上限。
通过框架引入到代码库中,可以在运行时采集相关的性能数据。 自定义检测:仅当平台指标不足时,才建议开发人员可以添加自定义代码采集独有的性能指标。 使用业界可观测的标准。请考虑使用围绕业界标准构建的工具,例如OpenTelemetry。 建议:使用分布式的调用链技术,可以识别多个服务和组件之间请求链路;通过收集调用链
依赖导致的变更风险。 实施保障:按预定方案执行变更,变更步骤标准化、可观测,变更异常及时介入处理,实现变更实施全过程可控、可视、可管。 确定性故障管理 统一事件中心:提供事件发现、事件处理、恢复验证及持续改进的全流程标准化机制。 承载Warroom和故障回溯能力:现网事件智能启动