检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SEC03-01 定义权限访问要求 明确定义哪些人员或机器应当有权访问哪个组件,选择用于进行身份验证和授权的适当身份类型和方法。 风险等级 高 关键策略 使用IAM角色来定义应用程序和组件对资源的访问权限。通过构建最低权限访问模型,确保只授予必要的权限。根据用户的角色和职责分配权限,确保用户只能访问其工作所需的资源。
建立安全基线 建立符合合规性要求、行业标准和平台建议的安全基线,安全基线是团队内对安全的底线要求。根据基线定期衡量您的工作负载架构和运行情况,持续保持或改善工作负载的安全状况。 风险等级 高 关键策略 确定合规性要求:了解您的工作负载必须符合的组织、法律和合规性要求。 相关云服务和工具 华为云合规中心
金融类核心应用通常比较重要,要求非常短的恢复时间和数据丢失量,其可用性目标通常要求达到99.999%,即每年故障时间可以为5.26分钟。 假定故障中断与变更中断的时长分别如下: 故障中断:由于要求的故障中断时间很短,要求尽可能自动恢复,没有手动触发的恢复,假定每年故障中断4次,每
从性能角度来看,最好为性能场景定义具体的、量化的、可测量的性能目标。若要设置这些目标,需要充分了解业务要求以及预期将提供的服务质量。 需要与业务利益干系人共同关键功能的体验要求,而不是只关注技术指标。通过明确地说明性能需求来控制性能,说明要足够明确,以便可以定量地确定软件系统是否满足该目标。具体要求: 定义明确的性能需求目标
高 关键策略 您的云上应用要达到卓越运营,从设计和开发阶段就需要保证可用性,可恢复性,同时也需要保证代码的质量。您需要评估和了解软件DFX相关要求,包括可靠性、性能、可服务性、可运维性、可交付性等要求 将监管、行业和内部合规性要求纳入需求范围中,同时在需求排序的时候,给予这些需求足够的时间和重视。
根据“常见IT系统SLO示意”中的表格可以得知,不同的IT系统,SLO目标是存在差异的,不是所有的应用系统都需要达到最高可用性要求。 当系统可用性目标要求升高时,所需的成本也通常会增加,因此在可用性目标制定时,需要对韧性与成本进行权衡,确定真正的可用性需求。 在系统的可用性目标明确后,可参
监控数据存储和分析 监控数据包括统计和日志信息,均需要存储并进行生命周期管理,以满足数据监控的保留要求;并定期对其进行分析,以了解系统运行状态和趋势。 风险等级 中 关键策略 监控数据存储时长需要满足保留要求。 监控数据需要定期分析,以便发现或预测系统故障,减少业务中断。 相关云服务和工具
如RDS、DDS、DCS等具备原生的创建备份功能;云商店也有不少备份软件可以支持各种数据的备份。 华为云云服务提供了备份工作负载数据的功能,典型的备份有: 云备份CBR服务:CBR提供对磁盘(EVS)、服务器(ECS、HECS、BMS)基于快照的备份和恢复能力,SFS Turbo
源,以满足系统的性能要求。 计算资源:根据预测的需求,计算所需的CPU、GPU、内存等计算资源,并根据实际情况进行选择和配置。 存储资源:根据预测的需求,计算所需的存储空间,例如需要存储大量的数据,可能需要选择分布式存储系统。 网络带宽:根据预测的需求,计算所需的网络带宽,例如需
仅可以扩展自己的知识面,还可以通过与其他人的交流,获得更多的解决方案。 随时更新和维护:运维知识库系统会不断更新和维护知识库中的内容,保证系统中的知识始终是最新的和准确的。用户可以通过订阅功能,及时获取到最新的知识和解决方案。这样可以保证用户能够始终处于技术领先的状态,应对各种复杂的问题。
遵循华为云安全配置基线指南,包括对不同服务的安全配置建议,例如: 容器安全,例如容器安全配置,CCE里不安全的容器配置可能导致容器逃逸问题 系统漏洞,例如操作系统的版本有没有升到最新版,使用版本是否存在漏洞 开放必要的端口,例如系统是否对公网开放22,3306等高危端口 禁止将重要业务数据所在的OBS桶设置为公开桶或者配置为公共可读。
常见故障模式 DCS的CPU /内存/带宽/连接数使用率过高 检测:通过CES监控CPU /内存/带宽/连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 应用层进行过载保护,保障优先业务的运行,如将部分性能要求不高的业务切回到原始数据源。 连接后端DCS失败 检测:连接失败。
在Region/AZ/IDC或其他云站点发生灾难的情况下的恢复能力 监控告警 应用系统故障后的检测和告警能力 弹性扩缩容 应用容量不足时的自动恢复能力 变更防差错 变更对应用业务中断的影响 应急恢复处理 应用在故障情况下的应急恢复能力 父主题: 参考架构
资源指标三种维度指标需要达到的目标基线,指导系统能达到以最小的资源占用管理最大的数据并给用户提供最优的体验目标,输出系统各个场景所要达到的SLA。 2.创建测试方案 创建测试方案是指设计适合性能测试系统负载的特定场景或条件的过程,性能测试方案设计要求全面、无遗漏,使用测试设计模板
RES13-06 压力负载测试 通过压力测试,可衡量系统的弹性扩容能力是否能满足业务要求。 风险等级 高 关键策略 参见“RES11-02 压力负载测试”章节。 父主题: RES13 过载保护
ECS弹性云服务器 弹性云服务器(Elastic Cloud Server,ECS)是由CPU、内存、操作系统、云硬盘组成的基础的计算组件。弹性云服务器创建成功后,就可以像使用自己的本地PC或物理服务器一样,在云上使用弹性云服务器。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
制定和实施可观测性指标 风险等级 高 关键策略 指标是对时间周期内的测量数据的数值表示。可观测性指标是围绕发现率、定级准确率、定界时长、覆盖率、有效率、 一致率打造可观测能力,将可观测设计规范统一发布,统一设计要求与运维管理要求。 设计建议 整体技术方案会变成标准并进行发布,各个业务系统
或中断。 对已部署的应用系统,改造为支持高可用能力的实施步骤: 确定应用系统的关键组件;所谓关键组件是指一旦故障,会导致整个应用系统或其中的关键功能受损。 针对关键组件,检查其高可用能力,即在其故障的情况下,是否能自动故障转移,进行业务恢复。 针对未支持高可用的关键组件,进行如下优化处理:
云服务器反亲和 应用内相同业务的ECS需要分散到多台物理服务器,避免运行到同一台物理服务器上,当发生这种情况时,可能会由于一台物理服务器故障而导致业务中断。 风险等级 高 关键策略 针对多个承载相同业务的ESC,需要配置主机组反亲和,从而可以将相同业务的ECS调度到不同物理服务器上
内部知识管理类应用通常用于内部操作,且在故障时只会对内部员工造成影响,可以承受较长的恢复时间和恢复点,其可用性目标通常要求达到99.9%,即每年中断时间可以为8.76小时。 导致业务中断的时间包含故障中断时间及由于升级配置维护等导致的中断时间,假定分别中断时间如下: 故障中断:假定每年故障中断4次