检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
常见故障模式 弹性伸缩失败 检测:查看弹性伸缩组的弹性伸缩活动历史。 恢复: 根据伸缩活动失败描述信息进行修复。 父主题: AS弹性伸缩
确定性能指标:确定要度量和约定的性能指标。示例包括: 响应时间,或服务响应请求的速度。 吞吐量,或按单位时间处理的请求数。 资源利用率,例如CPU、内存和磁盘使用率。 记录性能相关的度量值:将测试期间获得的性能指标记录为基线度量值。这些度量与测试前约定的SLA比较值。 比较将来的测试:在后续性能
验收标准是用于评估指定工作负载是否满足性能要求的指标,需要在性能测试前期定义合理的验收标准。 查看性能目标 性能目标定义了工作负载所需的性能级别。查看为工作负载建立的性能目标。性能目标是可能涉及响应时间、吞吐量、资源利用率或任何其他相关绩效指标的指标。例如响应时间的目标可能低于特定阈值,如小于2秒。
机器学习,对客户历史消费数据进行建模,对于不符合历史数据模型的成本增长,识别为异常成本记录,同时提供异常增长的Top潜在原因。客户可设置监控提醒,定期获取影响成本高的异常记录提醒,进而快速做出反应,维持预期的成本支出。 在费用中心设置可用额度监控,在可用额度余额低于阈值时预警,避免客户额度耗尽,业务中断。
业务数据不均衡原因 业务中部分Topic的流量远大于其他Topic,会导致节点间的数据不均衡。 生产者发送消息时指定了分区,未指定的分区没有消息,会导致分区间的数据不均衡。 生产者发送消息时指定了消息Key,按照对应的Key发送消息至对应的分区,会导致分区间的数据不均衡。 系统重新实现了分
个AZ节点不受影响,备节点会自动升级为主节点,对外提供服务。 监控告警 配合CES服务,支持对DCS的CPU、内存、磁盘、网络等进行监控和告警。详见“支持的监控指标”。 父主题: DCS分布式缓存服务
源,以满足系统的性能要求。 计算资源:根据预测的需求,计算所需的CPU、GPU、内存等计算资源,并根据实际情况进行选择和配置。 存储资源:根据预测的需求,计算所需的存储空间,例如需要存储大量的数据,可能需要选择分布式存储系统。 网络带宽:根据预测的需求,计算所需的网络带宽,例如需
配合弹性负载均衡ELB服务,可以实现多BMS实例的负载均衡。 健康检查 通过弹性负载均衡ELB服务,可对BMS实例进行健康检查。详见“修改健康检查配置”。 跨AZ容灾 配合ELB服务,可以实现跨AZ的故障切换。 监控告警 配合CES服务,支持对BMS的CPU、内存、磁盘、网络等进行监控和告警。详见“监控指标说明”。
对资源进行监控时,需要先定义资源的关键指标以及对应的阈值,以便快速有效的发现业务表现和系统状态,以便在异常状态下尽早干预恢复,或定位改进系统缺陷。 风险等级 中 关键策略 关键指标需要与系统内工作负载的关键性能指标相关,并能确定为系统性能下降的早期警告信号,如系统处理的API数量及成功率,相
故障模式分析是在系统分析和设计过程,通过对各组成单元潜在的各种故障模式及其对产品功能的影响进行分析,并把每一种潜在故障模式按它的严酷度予以分类,找出单点故障和产品的薄弱环节,提出可以采取的预防改进措施,以提高产品可靠性的一种设计方法。 当应用系统部署在华为云中时,华为云提供了基础设施的故障管理,应用系统可减少对
灾难场景通常采用RTO和RPO目标定义: 恢复时间目标RTO:指灾难发生后应用不可用的最长时间。RTO决定了应用容灾整体架构,是采用数据备份,还是冷备、温备、热备。 恢复点目标RPO:指灾难发生后应用数据丢失的最大时间。RPO决定了数据备份频率或复制方式,是在线备份还是离线备份,是同步复制还是异步复制。
赖于这些特殊资源的ECS,以提高ECS的可用性。 对于ECS、BMS、MRS等实例,在使用本地盘时,由于磁盘存在使用寿命上的限制,长时间使用后出现故障的概率会比较高,需要避免使用,而尽可能使用具有高可用能力的EVS磁盘;若必须使用时,则建议使用RAID提升本地盘的可用性,并从应用
2或更高版本)以确保使用最强的加密标准。 安全传输通道:确保数据传输的通道是安全的,避免使用不安全的网络或公共网络来传输敏感数据。 确保敏感数据在云侧和客户端之间传输时是加密的状态,即使数据被窃取,也难以解密。 端到端加密:采用端到端加密的方式,确保数据在传输的整个过程中都是加密的,从数据生成端
如RDS、DDS、DCS等具备原生的创建备份功能;云商店也有不少备份软件可以支持各种数据的备份。 华为云云服务提供了备份工作负载数据的功能,典型的备份有: 云备份CBR服务:CBR提供对磁盘(EVS)、服务器(ECS、HECS、BMS)基于快照的备份和恢复能力,SFS Turbo
弹性云服务器所在的硬件出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,保障业务受到的影响最小,该过程会导致云服务器重启。详见“物理机故障时,弹性云服务器是否会自动恢复”。 当检测到弹性云服务所在的硬件出现亚健康时,系统会自动化将弹性云服务器热迁移到其他物理服务器上继续运行
lave)均无法连接时,可将异地灾备实例切换为主实例,在应用端修改数据库链接地址后,即可快速恢复应用的业务访问。数据复制服务提供的实时灾备功能,可实现主实例和跨区域的灾备实例之间的单主灾备(详见“云数据库 TaurusDB到云数据库 TaurusDB单主灾备” ),或双主灾备(详见“云数据库
即可快速恢复应用的业务访问。数据复制服务提供的实时灾备功能,可实现主实例和跨区域的灾备实例之间的单主灾备(详见“MySQL到MySQL单主灾备”)或双主灾备(详见“MySQL到MySQL双主灾备”)。 监控告警 配合CES服务,支持对RDS的CPU、内存、磁盘、网络等进行监控和告警。详见“支持的监控指标”。
配合弹性负载均衡ELB服务,可以对弹性伸缩组创建的弹性云服务器进行负载均衡。 健康检查 健康检查会将异常的实例从伸缩组中移除,伸缩组会重新创建新的实例以维持伸缩组的期望实例数和当前实例数保持一致,伸缩组的健康检查方式主要包括以下两种。 云服务器健康检查:是指对云服务器的运行状态进行检查,如关机、删除
变更防呆检查 防呆是一种预防矫正的行为约束手段,运用防止错误发生的限制方法,让操作者不需要花费注意力、也不需要经验与专业知识,凭借直觉即可准确无误地完成的操作。 风险等级 高 关键策略 通过以下约束和检查,可减少配置差错: 角色约束:通过权限控制设计预防对不同角色的配置范围进行约束,避免越权配置导致错误。
单点故障会导致整个系统崩溃、主要功能受到影响、任务延误的系统轻度损坏或存在较大的故障隐患,因此系统的高可用设计非常关键。 高可用设计的主要手段是冗余,甚至是多级冗余的组合,包括异地容灾方式保证灾难情况下无单点: 冗余机制:只要条件允许,需要考虑关键组件的冗余,甚至是多级冗余的组合(例如:1+1冗余、n+1冗余、N-Way冗余等)