检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
原地升级和回滚时,升级和回滚过程中业务将会中断,中断时长受限于升级和回滚的时长,对业务影响比较大;而采用灰度部署和升级,可减少升级和回滚过程中的业务中断,提升系统可用性。 风险等级 高 关键策略 通过金丝雀部署、蓝绿部署等方式实现灰度升级或部署,逐步引入新版本部署范围或切换用户流量,配合自动回退以降低部署差错导致业务中断的风险。
Cache Service,简称DCS)是华为云提供的一款兼容Redis的高速内存数据处理引擎,可提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力,满足用户高并发及数据快速访问的业务诉求。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
容InfluxDB生态的云原生NoSQL时序数据库。提供大并发的时序数据读写,压缩存储和类SQL查询,并且支持多维聚合计算和数据可视化分析能力。具有高写入、灵活弹性、高压缩率和高查询等特点,适用于IoT、金融、软硬件设备实时监控、数据采集等场景。 GeminiDB Cassandra接口:GeminiDB
数据持久度 数据持久度是指数据不丢失的概率,即存储在预计周期内不出现数据丢失的概率,可以用于度量一个存储系统的可靠性。其只表示数据是否丢失的概率,不体现数据丢失多少;数据持久度的预计周期,一般按一年进行预计。 影响存储数据持久度的主要因子有:冗余数、磁盘失效率与数据修复时间。其中
吞吐量:在相同资源环境下,执行相同计算任务,查看任务的完成速度。 资源利用率:执行计算任务,查看在不同负载情况下,CPU、内存、网络的使用率。 伸缩性: − 横向扩容带来的性能提升曲线:增加资源,执行相同计算任务,查看性能提升比率。 − 增加系统负担带来的性能下降曲线:在相同资源环境下,增加计算负载,查看性能下降比率。
ELK成本高 解决方案: 业务价值: 全量日志接入:汽车APP、软件开发、流量平台等170个业务系统接入云日志服务,全面覆盖业务、应用、中间件和基础设施。 分钟级问题定界:秒级日志查询和分钟级日志监控,可配置告警和多渠道通知,90%问题感知与定位分析控制在30分钟。 存储时长满足
目标,团队可以针对特定目标持续改进。为了确保系统能够满足预期的可靠性和性能要求,避免系统性能瓶颈,性能目标设计需要在部署业务之前开展,重点的是明确系统的需求和预期目标,以生成性能目标范围。 结合业务明确性能要求 通过性能目标可以确定系统能够承载的最大用户量、并发请求量等,要保持性
有事情,被忽略的是最不重要的任务。主要用于处理瞬时突发负载导致超出系统处理的容量的情况,一般给重要任务赋予高优先级,最重要的行为优先得到处理。只适用于暂时超载的情况,如果超载不是暂时的,需要减少处理量,或者升级系统。如在性能过载场景下,按照功能优先级进行熔断间接,保证主要功能可用。
阈值时,系统通过短信、邮件通知或发送消息至服务器地址等多种方式实时通知用户,让用户能够实时掌握云资源运行状态变化。 监控面板:为用户提供在一个监控面板跨服务、跨维度查看监控数据,将用户关注的重点服务监控指标集中呈现,既能满足您总览云服务的运行概况,又能满足排查故障时查看监控详情的需求。
RES08 依赖减少与降级 对于应用系统,需要识别和管理系统依赖项。应用系统设计人员需要维护对其他系统组件的依赖项的完整列表,包括系统内和系统外的所有依赖。 应用系统应尽可能减少关键依赖项,即减少由于该依赖项不可用而导致服务中断的组件。 RES08-01 减少强依赖项 RES08-02
故障快速恢复 当应用系统采用华为云服务的高可用设计时,在云服务实例发生故障后,云服务能自动检测和恢复;但对于应用系统本身的故障,需要应用系统自身进行检测和快速恢复处理,以保证系统能够正常运行,从而提高系统的可靠性和稳定性。 RES08 依赖减少与降级 RES09 故障重试 RES10
为了预防区域级灾难发生,或业务跨云容灾需求,需要构建容灾系统提供较为完善的数据保护与灾难恢复能力,以便在站点级灾难发生时,可以保证生产系统的数据尽可能少的丢失,业务系统能在最短时间内由灾备中心接替,恢复业务系统的正常运行,将损失降到最小。 对于跨Region容灾场景,应用系统可在多个Region中部署,并
基础概念 指标 概念解读 性能 性能是指软件系统或软件对应其及时性要求的符合程度。及时性用响应时间或吞吐量来衡量。 响应性 响应性是系统实现其响应时间或吞吐量目标的能力。 响应时间(RT) 用户感受系统为其服务所耗费的时间。不同业务系统的响应时间期望值不同,如互联网业务多为500ms以下、金融业务1s以下等。
峰值及异常负载等状态下对系统的各项性能指标进行测试的活动,它关注运行系统在特定负载下的性能,可帮助你评估系统负载在各种方案中的功能,涉及系统在负载下的响应时间、吞吐量、资源利用率和稳定性,以帮助确保系统性能满足基线要求,有助于提早发现性能问题,防止随着系统运行可能出现的性能裂化小
RES13 过载保护 当系统流量超过一定阈值后,导致系统处于过载状态时,可能会导致部分请求失败,失败触发业务重试,会进一步增加系统的负荷,形成恶性循环,导致业务成功率远远低于系统的设计容量,甚至整体不可用。因此应用应该设计过载保护机制,使得在过载状态下依然可以保证一定比例设计容量的处理能力。
包含攻击的各个路径,初始访问、执行、持久化、权限提升、防御绕过、凭证访问、信息收集、横向移动、数据采集、命令控制、数据窃取和影响破坏等。 可基于流批一体化平台,支持在线、近线和离线的各种异常行为分析模型的构建,包含身份防线,网络防线,应用防线,数据防线,运维防线和主机防线等。也可同时基于AD-HOC实时进
对业务系统中其他组件的影响(如服务中断的影响、数据转移效率),这是具体实施业务上云过程中的重点关切。 业务应用场景的评估:如果是在云上新建业务系统,则要通过业务的实际需要进行云数据库的选型,它的评估与数据库是否建立在云上无关,而是根据实际业务系统的特点来决定的。如电商系统,考虑选
网络高可用 应用系统对外或对内通信都依赖于网络,一旦网络异常将会导致业务中断,因此网络架构的高可用及容灾能力至关重要。在进行网络设计时,需要充分考虑应用系统对内和对外的网络连接、IP地址管理和域名解析等。 华为云中网络高可用主要涉及三个场景: 公有云网络:构建应用系统相关的公网网络
管理界面查看到所有Host的资源使用情况。 接入层指标的观测 Manger的服务->Hive服务状态页面可以查看到相关的HiveServer的连接数,HQL的执行成功的统计信息。 HiveMetaStore指标的观测 在Manager的服务->Hive服务状态页面,查看HiveM
实施快速安全响应动作,隔离受影响的系统或账户、断开网络连接、停止服务、清除恶意文件、修复漏洞、替换受损系统并加固系统,确认所有威胁已经被完全清除,避免再次发生。 制定恢复策略,逐步恢复受影响服务,确保数据和系统一致性,进行测试确保所有系统恢复正常运作。 进行事件后分析,总结事