检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
制,长时间使用后出现故障的概率会比较高,需要避免使用,而尽可能使用具有高可用能力的EVS磁盘;若必须使用时,则建议使用RAID提升本地盘的可用性,并从应用层实现高可用,以便在一个实例故障时,应用可以自动故障切换和恢复业务。 相关云服务和工具 弹性云服务器 ECS 裸金属服务器 BMS
韧性的侧重点不同。可靠性工程的目标是尽可能减少系统中的故障,保证系统无故障运行。而韧性工程,接受故障总会发生的现实,关注的是如何降低故障带来的损失以及如何从故障中恢复。 父主题: 基本概念
请求的用户数据模型等测试设计。 5.执行测试 使用所选的测试工具进行性能测试,测试涉及查看和记录性能指标、监控运行情况以及查看出现的任何性能问题,同时监控和收集性能指标,例如响应时间、吞吐量、CPU和内存利用率以及其他相关指标。 使用定义的测试方案将工作负载置于预期负载之下。在这
IOPS/TPS 单文件系统 10K 千万级 单盘 128K 带宽 GiB/s级别 TiB/s级别 MiB/s级别 是否支持数据共享 是 是 是 是否支持远程访问 是 是 否 是否能单独使用 是 是 否 云服务链接 SFS官网 OBS官网 EVS官网 父主题: 选择合适的存储云服务
风险等级 高 关键策略 建议在开发周期的后期执行渗透测试,使系统功能接近预期发布状态,但也要留有足够的时间来解决发现的问题。 采用结构化流程:使用结构化流程确定渗透测试的范围,基于威胁建模的模型保持场景相关性,以确保全面评估系统的安全性。 自动化测试:利用工具自动执行常见或可重复的测试,以加快渗透测试的速度,并提高效率。
题。 此外也可以使用DevOps模式,由开发工程师直接运维系统,而保留一个小而精干的卓越运营使能团队,用于负责组织整体的卓越运营流程改进和相应的流程工具落地。 无论如何设立组织,应该确保具有一个整体的流程,在流程中的每个团队和成员都有自己明确的责任。 同时可以使用明确的方式(如收
将大多数场合在一起使用的功能组合在一起,以减少调用的交互次数。 本模式要求将组合调用居多的一些子功能,合并起来使用。聚合这个模式要求尽量将相关或紧耦合的功能放到一个对象中,使用本地接口,避免在外部接口或重开销的接口(如CORBA接口),呈现小粒度对象。聚合模式使用更粗粒度的对象,经
功能检测:对组成产品系统的各个内部模块对象进行检测的过程,确定模块功能是否满足设计的需求。当产品系统的功能发生故障时,对外的呈现即为功能输出和预期不一致。在产品上线之前,通过功能相应接口,开发者和测试人员需要多次检测以保证模块功能的正确性。功能检测可以使用传统日志跟踪技术、调用链技术来进行检测,如华为云APM。
体化监控平台。使您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。 云监控服务主要具有以下功能: 自动监控:云监控服务不需要开通,在创建弹性云服务器等资源后监控服务会自动启动,您可以直接到云监控服务查看该资源运行状态并设置告警规则。 主机
CPU /内存/磁盘/带宽使用率过高 检测:通过CES监控CPU /内存/磁盘/带宽使用率。 恢复: 当CPU/内存使用高时,可根据业务情况,手工修改代理规格或增加代理数量以扩展资源。 当磁盘使用率高时,可根据业务情况,修改实例存储空间支持更大存储空间。 当带宽使用率高时,可根据业务情况,变更规格以支持更大带宽。
业务请求。 BMS实例或挂载的磁盘或数据被意外删除 检测:NA 恢复:对于无状态业务,使用模板快速发放新实例;对于有状态业务,使用CBR云备份服务对BMS云硬盘进行定期备份,在数据被删除时使用备份数据快速恢复。 BMS实例物理服务器或本地盘故障 检测:应用层检测物理服务器和本地盘运行状态
ECS实例或挂载的磁盘或数据被意外删除 检测:NA 恢复:对于无状态业务,使用模板快速发放新实例;对于有状态业务,使用CBR云备份服务对ECS进行定期备份,在数据被删除时使用备份数据快速恢复。 ECS实例使用本地盘时本地盘故障 检测:应用层检测本地盘运行状态。 恢复:应用层采用RA
CTS:用户开通CTS后,系统会自动创建一个追踪器,该追踪器会自动识别并关联当前租户所使用的所有云服务,并将当前租户的所有操作记录在该追踪器中。CTS服务具备对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 云堡垒机 CBH
存活探针:livenessProbe,用于检测容器是否正常,类似于执行ps命令检查进程是否存在。如果容器的存活检查失败,集群会对该容器执行重启操作;若容器的存活检查成功则不执行任何操作。 就绪探针:readinessProbe,用于检查用户业务是否就绪,如果未就绪,则不转发流量到当前实例。
故障模式,严酷度必须设置为高。云服务通用的故障模式有:CPU过载、内存过载、磁盘使用率过高、数据故障(被误删等)、AZ故障、Region故障等。 提供故障检测和缓解措施 针对每种故障模式,需要分析如何检测和恢复,提出改进建议措施,并在系统复杂度和成本之间进行综合考虑,优先解决严酷度高的故障模式。
持续监控资源的闲置情况(如ELB无流量,EVS盘无挂载,EIP没有绑定到虚机),释放资源,或者监控资源使用只是在某个固定的时间(如每天的十二点,每个周末),可以使用自动化的方式定期申请资源,使用后释放 相关服务和工具 华为云优化顾问,提供成本维度的巡检,识别ECS、EIP、EVS、ELB等闲置资源。
实例由于过载导致无法及时响应,需要重试。 RES09-01 API及命令调用需要设计为可重试 RES09-02 客户端需要根据综合评估是否要重试 RES09-03 重试需要避免造成流量压力 父主题: 故障快速恢复
体实施业务上云过程中的重点关切。 业务应用场景的评估:如果是在云上新建业务系统,则要通过业务的实际需要进行云数据库的选型,它的评估与数据库是否建立在云上无关,而是根据实际业务系统的特点来决定的。如电商系统,考虑选型MySQL满足用户信息管理、买家信息管理、交易处理的业务需求,选型
员应遵守这些政策和流程,确保安全管理的一致性和有效性。 建立应急响应计划:开发和测试应急响应计划,以应对安全事件和紧急情况。团队应清楚知道如何应对安全威胁和处理安全事件。 父主题: SEC01 云安全治理策略
网故障数量。 产品可用度评审流程(Product Readiness Review):对于您云上业务是否在产品环境有问题的审查,以确定产品/应用已做好产品发布准备,在运维阶段是否有问题。 值得注意的是,由于云上应用迭代更新的特性,产品可用度评审不应该只是在产品刚上线时进行审查,而