检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES14-03 变更前数据备份 通过配置数据事前备份与恢复设计,确保在出现配置错误时能够快速恢复到正确的配置数据状态。 风险等级 高 关键策略 进行全量数据备份,以防变更过程中数据被破坏,影响业务。 异常回滚时,可使用备份数据进行恢复。 父主题: RES14 配置防差错
这些方案为性能测试人员提供了一种方法来评估服务负载在不同条件下的性能,包括测试环境、测试工具、测试监控项等。 通过测试方案可以复制各种系统负载档位,例如并发用户访问、峰值负载时段或特定场景。 通过测试不同的负载档位,可以识别性能瓶颈并优化部署资源,输出件是可执行性能测试方案。 用户原子行为:识别测试
(IaC) 方法,可以使用相同的自动化平台部署并优化基础架构。 测试:许多工具可用于自动化测试过程。这些工具可以减轻质量保证团队的重大负担,并确保测试标准化且可靠。 扩展:使用平台提供的功能和其他工具(例如: 资源编排服务 RFS),在负载增加或减少时自动扩展基础架构。 监控和警报:使用云运维中心
变更防差错 在系统的运行过程中,配置变更是导致生产系统不可用的重要风险之一,如配置修改、工作负载手工增缩或补丁安装等。当变更失败时,可能会导致性能下降或业务中断等严重的问题。因此为了降低变更带来的业务风险,需要为工作负载或其环境的更改做好准备,实现工作负载的可靠操作。 变更操作属
提供runbook进行标准化变更 runbook是指运行手册,是用来实现变更的详细操作过程。 变更前需提供标准化runbook用于变更和回退,变更过程中严格按照runbook执行,在变更失败时根据runbook进行回退。 风险等级 高 关键策略 runbook需涵盖变更前检查、变更操作、变更后检查及变更失败回退操作。
设计建议 变更风控衡量指标:变更风控衡量指标为变更导致事件密度和变更引入重大事件数。 变更导致事件密度定义:每月变更导致对客户造成影响的事件数与总变更数的比值。 计算公式:变更导致事件密度=变更导致对客户造成影响的事件数/总变更数。 变更引入重大事件数定义:每月变更引入对客户产生重大影响的事件次数。
Time to Fix)平均修复时长 变更风险控制 在变更作业过程中,建立事前检查、事中拦截和事后验证的能力,防止异常行为。 安全生产 安全生产目的是为了持续保障现网“安全、稳定、高质量”,从人员、工具、产品能力、流程规范等方面在安全预防、过程监控、结果稽查等维度进行端到端管理,减少
风险等级 高 关键策略 基于业务的部署架构,一般可以从最底层的硬件基础设施到最上层的应用分成5层资源,云上服务可以只需要关注虚拟网络、实例、应用三层。结合每一层资源的特征指标进行分层建模,分别设置不同梯度的性能看护指标。通常按照指标劣化程度可以设计成一般、紧急、重要三个梯度,对应每个梯
拓展。 中小型企业以及单账号客户,可以使用企业项目来映射组织。如果存在更多维度、更细粒度规划的诉求,可以使用标签作为组织规划的补充。比如用标签来区分资源归属的产品团队、应用和负责人。 企业组织采用企业主子多账号形式进行成本管理时,企业主子关系可以分为财务托管和财务独立两种。 财务
用区。 选择优先:云服务器扩容时目标可用区的选择按照选择的可用区列表的顺序进行优先级排序。 监控告警 配合CES服务,支持对弹性伸缩组的CPU、内存、磁盘、网络等进行监控和告警。详见“监控指标说明”。 父主题: AS弹性伸缩
运维等对网络要求低的系统部署在贵阳、乌兰察布,降低资源成本。 可以关注华为云新推出的云区域以及相关的服务,考虑多Region部署方案。 相关服务和工具 布局优化可以参考华为云不同Region的算力价格,尤其乌兰察布和贵阳等Region 父主题: COST08 进行架构优化
且两者之间可以通过调度层面的容量状态进行解耦。 详见“弹性伸缩概述”。 跨AZ容灾 CCE服务支持跨AZ创建或扩展容器集群,工作负载自动在多个AZ间均匀分配。 监控告警 CCE支持配合AOM对集群进行全方位的监控,包括集群、节点、工作负载、容器实例POD等。详见“监控概述”。 父主题:
和OU,每个业务OU下面可以按照业务系统创建独立的成员账号。规模较大的业务系统或安全隔离要求严格(如需要遵守PCI-DSS、HIPPA等合规标准)的业务系统对应一个独立的成员账号,安全隔离要求不高的多个小型业务系统可以共享一个成员账号。以销售部为例,可以为销售管理系统、数字化营销
组织则可以以成本效率为主要考量,设计比较严格的云成本优化策略。 企业还可以借助华为云成本中心提供的云成本管理工具和平台来实现自动化的成本监控和优化。 节省和优化,使用不同的计费模式,资源优化和架构优化 云支出的主要影响因素是费率和用量,结合云化业务模型和成本数据分析,可以使用不同
的逻辑中,当业务发生故障,从故障发现、到故障定级和影响面分析、再到故障定界定位和故障恢复,几乎全部依赖人工处理。要想缩短时间,本质上是监控即发现、监控即定级、监控系统定界、定界即恢复——如果能达成这样的设计就能够形成 MTTR 的最短路径。 父主题: OPS06 可观测性体系
防守要点变化: 从单点防护开始转变为多点协同防护;从大范围的黑名单拦截转变为有技巧性的联动防护;从边界的纵深拦截延伸到内网的异常监控;从被动的监控防御延伸到主动的诱捕溯源。 用户需求变化 产品层面:除传统的入侵防御、WAF和漏扫之外,对资产测绘、APT检测、安全情报和蜜罐的需求在不断增加。
需要通过自动化手段快速定位定界发现根因。可以通过应用模型建设三维的拓扑,把架构-空间-时间数据关联起来。这里面的关键是架构模型的建立及分层指标的聚合可视化能力,需要依赖持续的资源治理和数据治理。 相关云服务和工具: 优化顾问 OA 云监控服务 CES 应用运维管理 AOM 父主题:
Spark是基于内存的分布式计算框架。在迭代计算的场景下,数据处理过程中的数据可以存储在内存中,提供了比MapReduce高10到100倍的计算能力。Spark可以使用HDFS作为底层存储,使用户能够快速地从MapReduce切换到Spark计算平台上去。Spark提供一站式数据分析能力,包括
任何人使用。如果没有wiki 或文档存储,可以使用源代码版本控制机制。 优先通过自动化响应事件,避免占用业务交付和创新的时间。首先构建一个可重复的流程来缓解问题,然后关注自动缓解或解决根本问题以提升效率。 华为云相关云服务和工具 云监控服务 CES 云运维中心 COC 父主题: OPS07
Prometheus(停止维护) 云原生监控插件 一套开源的系统监控报警框架,负责采集kubernetes集群中kubelet的公开指标项(CPU利用率、内存利用率)。 NA CronHPA CCE容器弹性引擎 CronHPA可以实现在固定时间段对集群进行扩缩容,并且可以和HPA策略共同作用,定