检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES06-02 面向所有故障进行检测 针对所有故障场景,都需要能自动检测,以便及时发现和恢复故障。 风险等级 高 关键策略 所有故障都必须有检测。 支持按不同维度进行故障检测,如Region、AZ、服务、方法、实例或容器ID等,检测维度与故障恢复方式对齐。 检测到故障后需及时告警或自动恢复。
基于用户使用场景构建业务模型,自动化构建覆盖系统容量规格70%的业务量,持续7*24小时进行长时间负载测试以评估系统稳定性。 风险等级 高 关键策略 模拟各种业务场景进行测试。 持续自动测试。 测试结果发生偏差时自动告警,以便及时定位和处理。 父主题: RES11 可靠性测试
RES11-04 灾难演练 通过容灾演练,可以验证灾备系统是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 灾难演练着重测试服务跨AZ或跨Region故障转移能力,验证系统的容灾能力以及面对灾难时的应对能力,涉及到多个团队间配合,通常作为专项开
PERF03-06 选择合适的消息队列 风险等级 中 关键策略 三种不同版分布式消息服务的适用场景如下: Kafka:兼容开源Kafka,适用构建实时数据管道、流式数据处理、第三方解耦、流量削峰去谷等场景,有大规模、高可靠、高并发访问、可扩展且完全托管的特点。 RocketMQ:
PERF05-04 大数据场景资源优化 风险等级 中 关键策略 在大数据场景下,可以通过优化资源的使用和分配,提高系统的性能和效率。以下是一些常见的大数据场景资源优化方法: 分布式存储:使用分布式存储系统,如Hadoop HDFS、Apache Cassandra等,将数据分散存
COST03-03 公共成本分配 风险等级 中 关键策略 跨团队共享使用的CDN、直播带宽应按照各业务团队的实际带宽占比,将带宽费用拆分到不同的业务团队。 跨团队共享使用的CCE集群服务,应按照各团队分配和使用的CPU/内存等比例,将容器集群成本(包含CCE、ECS、EVS等服务成本)拆分到各个业务团队。
OPS07-04 支持故障恢复流程 风险等级 高 关键策略 当现网发生故障时,既要快速恢复业务,又要降低影响,首先需要围绕故障全生命周期采取一系列控制流程,包含故障预防、故障发现、故障定位、故障恢复、故障复盘及持续改进(含故障演练),基于故障模式库,面向全流程、构建恢复能力、保证
COST07-02 释放闲置资源 风险等级 中 关键策略 持续监控资源的闲置情况(如ELB无流量,EVS盘无挂载,EIP没有绑定到虚机),释放资源,或者监控资源使用只是在某个固定的时间(如每天的十二点,每个周末),可以使用自动化的方式定期申请资源,使用后释放 相关服务和工具 华为
OPS05-03 定义变更流程 风险等级 高 关键策略 在建立标准的变更管理流程前,清晰明白变更各个流程的定义: 变更发起:在变更发起前,需明确变更内容与变更原因等信息。信息的明确可减轻变更评估人的工作量,同时明确变更的意义。变更信息包括: 基本信息:标题、时间、变更人、原因等。
OPS07-01 创建可操作的告警 风险等级 高 关键策略 收到告警时,一般需要做出响应,消除无须响应的告警。 比如磁盘IO 量瞬间飙升,CPU 使用率瞬间飙高,这类告警无需做出响应,对业务而言,意义就不大了。 遵循可操作性原则能避免很多误报。并且要定期统计和分析告警频率,识别高
预留IP资源以便扩展及高可用 云上网络需要满足可扩展以及高可用需求,以便在云上资源弹性伸缩或业务扩展时,有足够网络资源支撑业务发展。 风险等级 高 关键策略 云上网络规划设计应满足以下原则: 针对每个Region,根据业务需要规划不同的VPC,每个VPC使用独立的地址空间;并需要预留IP地址空间用于新建VPC。
ELB弹性负载均衡是将访问流量根据分配策略分发到后端多台服务器的流量分发控制服务,支持独享型负载均衡与共享型负载均衡: 独享型负载均衡:独享型负载均衡实例资源独享,实例的性能不受其它实例的影响,可根据业务需要选择不同规格的实例。 共享型负载均衡:属于集群部署,实例资源共享,实例的性能会受其它实例的影响,不支持选择实例规格。
定期进行容灾演练,以检查恢复能否满足容灾目标 通过定期的容灾演练,可以验证灾备系统是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 每年至少进行一次容灾演练;通过演练可提升操作人员的熟练程度。 演练期间需要对恢复过程计时,以确定应用系统的RPO与RTO目标能否满足。
最高权限。一旦账号受到攻击或泄露,可能导致严重的安全问题和数据泄露。因此,身份认证的安全性首先要考虑对此账号进行保护。 风险等级 高 关键策略 强密码:使用强密码来保护账号,包括数字、字母、特殊字符的组合,并确保密码足够长且复杂。 多因素认证(MFA):启用多因素认证为保护账号提
据收集的目的、数据处理的方式、数据使用的范围、数据存储的期限等。这种通知通常以隐私政策、用户协议、提示信息等形式呈现。 风险等级 中 关键策略 主动通知数据主体的重要性在于: 透明度和可控性:通过主动通知,数据主体可以了解数据处理者如何处理其个人数据,从而增加对个人数据的透明度和可控性,使其能够做出知情同意的决定。
PERF06-02 性能劣化自动定界定位 风险等级 中 关键策略 通过建立的分层性能模型,判断系统是否会出现性能劣化的情况。当出现劣化事件时,需要通过自动化手段快速定位定界发现根因。可以通过应用模型建设三维的拓扑,把架构-空间-时间数据关联起来。这里面的关键是架构模型的建立及分层
COST01-01 规划企业组织,将组织结构,流程和成本管理相匹配 风险等级 高 关键策略 在成本优化过程中,一个很重要的原则是需要将组织结构,流程和成本管理相匹配。需要建立“责权分明”的体系,否则即使用再好的成本优化工具,也无法将成本优化落到实处。一个比较好的实践是在初始的时候
COST01-02 规划IT治理体系,提高管理效率 风险等级 高 关键策略 实施与您的组织对应的IT治理结构。这有助于在整个组织内分摊和管理成本。随着经营范围和规模的不断扩张,不断建立子公司、分公司,大部门也逐步拆分成多个小部门,组织结构的层级也就越来越多。企业的IT治理架构也会
COST02-01 建立云预算与预测流程 风险等级 高 关键策略 由于云资源天然的易申请,易缩扩容的特性,使用云可以提高效率、创新速度和灵活性,与此同时,也导致了云成本和使用模式的高度可变,客户应调整现有的组织预算和预测流程,以适应云的变化。 客户应密切关注历史消费趋势和不断变化
OPS03-04 对生产环境进行拨测 风险等级 高 关键策略 拨测是利用软件系统以外,甚至现有账号或云Region外的系统,以系统用户使用场景为视角,模拟用户使用场景的测试。和普通的云拔测可实现对网络质量、页面性能、端口性能、文件传输、音视频体验等场景进行周期性监控,支持多维度分