检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当客户端请求超时或收到错误响应时,客户端需要决定是否重试;重试有助于客户端在请求失败时,通过重复消息来获得预期的结果,避免业务失败,但也会消耗更多的服务器时间来获取所需的成功响应。 风险等级 高 关键策略 请求超时,可能是链路闪断或其他临时性故障导致消息丢失,可以进行重试。 根据错误响应码进
BMS裸金属服务 裸金属服务(Bare Metal Server,BMS)是一款兼具弹性云服务器和物理机性能的计算类服务,为企业提供专属的云上物理服务器,为核心数据库、关键应用系统、高性能计算、大数据等业务提供卓越的计算性能以及数据安全。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
关联源代码版本和部署的应用版本,使用代码质量最佳实践 OPS03 你是否有完备的测试验证体系? 1. 推行开发者测试 2. 使用多个环境进行集成测试,构建和生产环境相同的预生产环境 3. 性能压测 4. 生产环境拔测 5. 混沌测试和演练 OPS04 自动化构建和部署流程是否完备? 1. 有效落地持续集成
的营收。 回顾和审核的频率应该综合考虑多种因素,包括成本优化在企业或者组织中的重要性,测试和验证成本,应用的复杂性和优化变更的难易程度。同时,在每次回顾和审核时,持续改进流程,例如,通过降低测试和变更的成本从而提升整体的优化频率。最后,在云厂商新的服务、资源类型和配置推出后,也可
则来自动增加/缩减业务资源。当业务需求增长时,AS自动增加弹性云服务器(ECS)实例或带宽资源,以保证业务能力;当业务需求下降时,AS自动缩减弹性云服务器(ECS)实例或带宽资源,以节约成本。AS支持自动调整弹性云服务器和带宽资源。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
备份,在数据被删除时使用备份数据快速恢复。 BMS实例物理服务器或本地盘故障 检测:应用层检测物理服务器和本地盘运行状态 恢复:应用层采用RAID实现BMS内硬盘高可用,并实现跨BMS的数据复制与高可用,以便在物理服务器或本地盘故障时业务可快速恢复。建议非必须使用本地盘场景,尽可
尽早检视系统的代码(此过程称为代码白盒安全检视),确保代码符合安全最佳实践,避免在后续阶段发现严重的安全漏洞。 利用安全测试工具进行静态代码分析、动态代码分析、漏洞扫描等测试,以发现潜在的安全问题。 使用模拟攻击工具或技术,尝试模拟攻击者的行为,以评估系统的安全性和弱点。 父主题: SEC01
这种ECS中的工作负载,需要检查ECS重启后业务是否能自动恢复。 对于依赖特殊资源的ECS,如本地盘、直通FPGA卡、直通IB卡等,不支持故障自动恢复,针对此类ECS需要检查是否可以替换为不依赖于这些特殊资源的ECS,以提高ECS的可用性。 对于ECS、BMS、MRS等实例,在使
的应用相比,应更经常、更彻底地审核占总成本 50% 的应用。优化时要考虑的另一个因素是实施更改的工作量。如果测试和验证变更的成本很高,优化的频率应该降低。您应该反方向考虑是否可以通过替身自动化测试和验证能力,从而进一步降低人力成本。 此外,由于成本优化带来可能带来的资源冗余度的下降,故而也应该综合考虑业务的趋势。
云服务可靠性介绍 概述 ECS弹性云服务器 BMS裸金属服务 CCE云容器引擎 ELB弹性负载均衡 AS弹性伸缩 DCS分布式缓存服务 DMS分布式消息服务 RDS云数据库 GaussDB(for MySQL)云数据库 OBS对象存储服务 父主题: 韧性支柱
给其他所有成员账号使用 公共服务管理团队 镜像服务IMS、容器镜像服务SWR、弹性文件服务SFS、对象存储服务OBS、自建NTP服务器、自建AD服务器等公共资源 安全云脑SecMaster、云审计服务CTS、配置审计Config、企业主机安全HSS、数据安全中心DSC 业务账号
PERF04 性能分析 性能测试 性能数据采集 建立性能可观测性体系 父主题: 性能效率支柱
相同的工作负载实例,分别处理完整的生产负载。第一个(蓝色)实例处理所有工作负载。第二个(绿色)实例已使用新功能进行更新并进行了内部测试。经过内部测试后,生产流量的子集从蓝色实例路由到绿色实例。与金丝雀部署一样,当您引流更多流量转移到绿色实例时,引流是渐进的。完成转出后,更新实例将
统能够正常运行,从而提高系统的可靠性和稳定性。 RES08 依赖减少与降级 RES09 故障重试 RES10 故障隔离 RES11 可靠性测试 RES12 应急恢复处理 父主题: 韧性支柱
些原因主备切换时,会导致连接中断,需要客户端重试。 实例由于故障重启可能会导致通信中断,如ECS所在物理服务器由于硬件原因故障时,ECS重启或在其他物理服务器中自动恢复,恢复过程中与ECS的通信会中断,需要重试。 实例由于过载导致无法及时响应,需要重试。 RES09-01 API及命令调用需要设计为可重试
问题和检查项 OPS01 建立持续改进的团队文化和标准化的运维体系 OPS02 通过CI/CD实现高效的频繁可逆的小规模变更 OPS03 完备的测试验证体系 OPS04 自动化构建和部署流程 OPS05 运维准备和变更管理 OPS06 可观测性体系 OPS07 进行故障分析和管理 OPS08
安全合规使用开源软件 SEC06-02 建立安全编码规范 SEC06-03 实行代码白盒检视 SEC06-04 应用安全配置 SEC06-05 执行渗透测试 父主题: 应用安全
确定模块功能是否满足设计的需求。当产品系统的功能发生故障时,对外的呈现即为功能输出和预期不一致。在产品上线之前,通过功能相应接口,开发者和测试人员需要多次检测以保证模块功能的正确性。功能检测可以使用传统日志跟踪技术、调用链技术来进行检测,如华为云APM。 业务检测:模拟用户的业务
CCI)进行部署。 如果本身业务已经是微服务化的形式,建议上云时考虑容器服务(CCE/CCI)进行部署。 相关服务和工具 弹性云服务器 ECS 裸金属服务器 BMS 云容器引擎 CCE 云容器实例 CCI 父主题: 选择合适的计算资源
全生命周期性能管理 全生命周期性能管理围绕需求、设计、开发、测试与编护完整的软件生周期展开,将性能活动内化到生命周期流程中,实现性能工作的常态化。 PERF01-01 全生命周期性能管理 父主题: PERF01 流程与规范