检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
应用运维管理(AOM2.0) 应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,融合云监控、云日志、应用性能、真实用户体验、后台链接数据等多维度可观测性数据源,提供应用资源统一管理、一站式可观测性分
SEC01-01 建立安全管理团队 指定负责工作负载在云环境的安全性、合规性、隐私保护方面的关键角色,确保从责任主体上保障工作负载的安全性。 风险等级 高 关键策略 明确职责和角色:确定团队成员的职责和角色,包括安全架构设计、安全测试、安全运营等方面的角色。每个角色应清晰定义其职责范围和任务。
COST02 实施预算规划管理机制 COST02-01 建立云预算与预测流程 COST02-02 精细化预算管理和跟踪 父主题: 成本优化支柱
OPS07 进行故障分析和管理 OPS07-01 创建可操作的告警 OPS07-02 创建监控看板 OPS07-03 支持事件管理 OPS07-04 支持故障恢复流程 父主题: 卓越运营支柱
OPS05 运维准备和变更管理 OPS05-01 进行生产准备度评审(Product Readiness Review) OPS05-02 进行变更风控 OPS05-03 定义变更流程 父主题: 卓越运营支柱
SEC02-03 安全管理及使用凭证 在进行身份验证时,首要选择使用临时凭证而非长期或永久性凭证,以减少或消除因凭证意外泄露、共享或被盗而带来的风险。 风险等级 高 关键策略 长期凭证如用户的登录密码、永久AK/SK,短期凭证如临时AK/SK、通过委托获取的权限等。禁止将长期凭证
应用管理与运维平台(ServiceStage) 应用管理与运维平台(ServiceStage)是面向企业的应用管理与运维平台,提供应用发布、部署、监控与运维等一站式解决方案。支持Java、Php、Python、Node.js、Docker、Tomcat技术栈。支持Apache ServiceComb
RES07-04 监控数据存储和分析 监控数据包括统计和日志信息,均需要存储并进行生命周期管理,以满足数据监控的保留要求;并定期对其进行分析,以了解系统运行状态和趋势。 风险等级 中 关键策略 监控数据存储时长需要满足保留要求。 监控数据需要定期分析,以便发现或预测系统故障,减少业务中断。
可靠性功能 数据备份和恢复 使用CBR云备份服务可对BMS的所有云硬盘(系统盘和数据盘)进行备份,支持基于多云硬盘一致性快照技术的备份服务,并支持利用备份数据恢复裸金属服务器数据,最大限度保障用户数据的安全性和正确性,确保业务安全。详见“备份裸金属服务器”。 集群HA 配合共享云
RES06-01 故障模式分析 故障模式分析是在系统分析和设计过程,通过对各组成单元潜在的各种故障模式及其对产品功能的影响进行分析,并把每一种潜在故障模式按它的严酷度予以分类,找出单点故障和产品的薄弱环节,提出可以采取的预防改进措施,以提高产品可靠性的一种设计方法。 当应用系统部
COST01-02 规划IT治理体系,提高管理效率 风险等级 高 关键策略 实施与您的组织对应的IT治理结构。这有助于在整个组织内分摊和管理成本。随着经营范围和规模的不断扩张,不断建立子公司、分公司,大部门也逐步拆分成多个小部门,组织结构的层级也就越来越多。企业的IT治理架构也会
信息管理类应用典型部署架构(99.95%) 信息管理类应用通常用于内部操作,且在故障时只会对内部员工造成影响,可以承受一定的恢复时间和恢复点,其可用性目标通常要求达到99.95%,即每年故障时长可以为4.38小时。 假定故障中断与变更中断的时长分别如下: 故障中断:假定每年故障中
COST02-02 精细化预算管理和跟踪 风险等级 高 关键策略 针对企业不同项目/业务/应用,应该建立预算管理机制,精细化管理每个项目/业务/应用全生命周期的云开销。 企业的项目/业务是随时间变化而变化的,一般而言,新兴业务/项目常有更多云资源扩容的需求,而稳定的业务/项目则可
OPS02-01 进行需求管理和迭代开发 风险等级 高 关键策略 您的云上应用要达到卓越运营,从设计和开发阶段就需要保证可用性,可恢复性,同时也需要保证代码的质量。您需要评估和了解软件DFX相关要求,包括可靠性、性能、可服务性、可运维性、可交付性等要求 将监管、行业和内部合规性要
组织级参考架构 华为云提供了Landing Zone解决方案帮助企业客户在云上构建架构卓越、安全合规、易扩展的多账号运行环境,首要环节是规划组织和账号架构。按照康威定律,企业在华为云上的组织和账号架构要与企业的组织和业务架构总体保持一致,但也不要完全照搬复制。华为云提供以下参考架
内部知识管理类应用典型部署架构(99.9%) 内部知识管理类应用通常用于内部操作,且在故障时只会对内部员工造成影响,可以承受较长的恢复时间和恢复点,其可用性目标通常要求达到99.9%,即每年中断时间可以为8.76小时。 导致业务中断的时间包含故障中断时间及由于升级配置维护等导致的中断时间,假定分别中断时间如下:
可靠性功能 数据备份和恢复 使用CBR云备份服务可对ECS的备份保护服务,支持基于多云硬盘一致性快照技术的备份服务,并支持利用备份数据恢复ECS数据。详见“云备份概述”。 故障自愈 当ECS支持自动恢复时,可以开启自动恢复能力,当物理服务器损坏时以冷迁移方式重启ECS实例,使弹性
可用度及SLO 可用性目标用于衡量应用系统的运行时间和停机时间,其表现形式为应用系统正常运行的时间占总时间(通常是一个月或一年)的百分比(如99.9%),即: 可用度 = 可用时间 / 总时间 * 100% 常见的简单表达方式用“9”的数量或“9”的数量加“5”表示,如“三个9”表示“99
PERF01-01 全生命周期性能管理 风险等级 高 关键策略 指定性能目标 从性能角度来看,最好为性能场景定义具体的、量化的、可测量的性能目标。若要设置这些目标,需要充分了解业务要求以及预期将提供的服务质量。 需要与业务利益干系人共同关键功能的体验要求,而不是只关注技术指标。通
SEC03-02 按需分配合适的权限 权限管理应遵循按需分配、最小授权、职责分离原则。需要根据工作职责限定人员对于关键业务系统的访问权限,以免非必要人员或非授权人员访问到关键系统和敏感数据。如需要临时权限,应仅向用户授予有限的时间段内执行特定任务的权限,并且在任务完成后,应撤销访问权限。