检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
盘和数据盘)进行备份,支持基于多云硬盘一致性快照技术的备份服务,并支持利用备份数据恢复裸金属服务器数据,最大限度保障用户数据的安全性和正确性,确保业务安全。详见“备份裸金属服务器”。 集群HA 配合共享云硬盘,可以构建AZ内集群或HA关键应用。一块共享云硬盘最多可同时挂载至16台
RES02-02 自动数据备份 对于需要备份的数据,可根据该数据的RPO指标要求,设置定期备份策略进行自动备份。 风险等级 高 关键策略 使用华为云备份服务或第三方备份软件对数据进行备份,并可根据RPO要求设置自动备份频率。CBR云备份服务可对ECS/BMS/EVS/SFS Tu
务质量下降,确保企业的环境安全、稳定地运行,并最大化的提升系统的可用性,满足所承诺的服务水平。 告警和事件管理流程:适用于开发,生产环境故障等事件的受理、处理、升级流程,确保用户的业务及时得到响应和处理,支撑SLA的达成,需要明确定义企业各类事件的等级,以及处理的职责,规范各类事
使用率Utilization:覆盖系统资源,包括但不限于CPU、内存、网络、磁盘等。 饱和度Saturation:针对资源的饱和度,如CPU队列长度,注意与业务监控的黄金指标相区分。 错误Errors:资源处理错误,如网络丢包率等。 CES主动监控提供了虚机细粒度的监控能力,其他服务监
Object,面向服务的目标,如:一定时间范围内的请求响应成功率大于XX%,或正常运行时间的百分比 云服务协议等级 SLA Service Level Agreement,面向用户的协议等级,涉及不满足时的补偿 数据恢复点目标 RPO Recovery Point Objective,主要指的是业务系统所能容忍的数据丢失量
OPS04-01 有效落地持续集成 风险等级 高 关键策略 持续集成是一种软件开发实践,开发人员使用它定期将软件更新集成到源代码控制系统中。当工程师向代码仓提交代码时,持续集成过程就开始了。理想情况下,集成过程会根据多个基线和测试来验证代码。然后,它向提交者提供有关这些测试状态的
标,例如响应时间、吞吐量、错误率、CPU 和内存利用率以及网络使用等。分析这些指标以了解服务的整体性能。 确定性能瓶颈:评估性能指标,以确定哪些性能指标是该场景测试的瓶颈点。评估包括高响应时间、资源使用、数据库问题、网络延迟和扩容限制等。确定服务场景的瓶颈点,有助于服务的优化改进与扩缩容处理。
RES15-03 自动化回滚 在升级或部署过程中出现异常,或检查/测试失败时,支持自动回滚,减少人工干预,避免回滚失败。 风险等级 高 关键策略 检测到异常后,可一键式回滚。 回滚过程自动化完成。 父主题: RES15 升级不中断业务
PERF06-03 自动告警 风险等级 中 关键策略 通过在云监控平台配置对应的告警策略,可以及时了解资源风险,以便做出对应调整和策略。 相关云服务和工具: 优化顾问 OA 云监控服务 CES 父主题: 性能看护
Bastion Host,CBH)是华为云的一款统一安全管控平台,为企业提供集中的账号(Account)、授权(Authorization)、认证(Authentication)和审计(Audit)管理服务。 云堡垒机提供云计算安全管控的系统和组件,包含部门、用户、资源、策略、运维
聚合物,以消除对少量信息的频繁请求。如,帐户类CustAcct可以提供访问函数getName(),getAddress(),getZip(),如果经常用到该类的任务是创建邮件标签,可以使用一个新函数genMailLableInfo(),以便调用一次取得所有信息,减少交互次数。 批处理
开发人员必须定期设置、更新和维护基础设施,以开发、测试和部署应用程序。 手动管理基础设施既耗时又容易出错,尤其是在大规模管理应用程序时。 风险等级 高 关键策略 使用声明式工具:与命令式工具相比,声明式工具是部署和管理 IaC 的更好的整体选择。声明性工具对其定义文件使用更简单的语法
应用层进行重试,以应对暂时性故障,如网络拥塞;应用故障重试处理可参考“故障重试”。 应用层进行过载保护,保障优先业务的运行。 OBS对象上传/下载失败 检测:对象上传/下载失败。 恢复: 应用层进行重试,以应对暂时性故障,如网络拥塞;应用故障重试处理可参考“故障重试”。 当OBS桶由于过载导致网络限制时,可参考“OBS桶流量过载”的处理。
程。 变更前需提供标准化runbook用于变更和回退,变更过程中严格按照runbook执行,在变更失败时根据runbook进行回退。 风险等级 高 关键策略 runbook需涵盖变更前检查、变更操作、变更后检查及变更失败回退操作。 父主题: RES14 配置防差错
可靠性功能 集群HA RDS服务支持HA主备高可用架构,故障秒级自动切换。 数据持久性 RDS数据持久性高达99.9999999%,保证数据安全可靠,保护业务免受故障影响。 数据备份和恢复 RDS支持每天自动备份数据,备份都是以压缩包的形式自动存储在对象存储服务(Object Storage
事故分析的目的是:规范和指导重大事故发生后,优化事故的输入、输出,确保事故回溯工作有效开展,回溯报告中发现的问题有效整改,总结的经验有效推广。 风险等级 高 关键策略 故障发生后,通过对现网重大故障处理过程 Review 及根因进行分析和改进总结,规范整个恢复过程,实现对可用性和技术能力的提升。故障复盘的技术过程按照
事后验证的能力,防止异常行为。 安全生产 安全生产目的是为了持续保障现网“安全、稳定、高质量”,从人员、工具、产品能力、流程规范等方面在安全预防、过程监控、结果稽查等维度进行端到端管理,减少或防止现网故障的发生,其中如何防止异常行为导致的事件是安全生产的重要目标。 故障快速恢复
PERF03-09 选择合适的RabbitMQ 风险等级 中 关键策略 版本选择:RabbitMQ服务版本随时间更迭,选择版本时需注意查看不同版本状态与区分,详情可参考官方公告。 规格选择:RabbitMQ服务提供了不同规格实例可供选择,建议按照业务需求对比,选择合适的规格型号,具体实例规格请参考官方文档。
PERF03-08 选择合适的RocketMQ 风险等级 中 关键策略 RocketMQ服务提供了多个维度定义规格,如资源规格、代理个数、存储容量、单个代理TPS、单个代理Topic数上限、单个代理消费组数上限等,建议根据不同版本涉及的具体规格情况选择合适的RocketMQ服务。
考虑简单、程序化且长期的任务。应用自动化并不是一种全有或全无的策略。即使需要人工干预的工作流(例: 决策点),也可以从自动化中受益。 风险等级 高 关键策略 优先考虑从自动化中受益最多的任务: 专注于高度程序化且容易出现人为错误的任务:这些任务被明确定义,高度自动化,没有增加复杂