检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检测:通过CES监控CPU/内存/磁盘容量/磁盘IOPS使用率。 恢复: 根据业务情况,手工变更规格以扩展资源或增加ECS实例进行负荷分担。 对于无状态业务,启动AS弹性伸缩,自动扩展资源。 应用层进行过载保护,保障优先业务的运行。 连接后端ECS失败 检测:网络连接失败。 恢复: 至少部署2个后端ECS。对于无状态
务表现和系统状态,以便在异常状态下尽早干预恢复,或定位改进系统缺陷。 风险等级 中 关键策略 关键指标需要与系统内工作负载的关键性能指标相关,并能确定为系统性能下降的早期警告信号,如系统处理的API数量及成功率,相比CPU利用率、内存利用率等基础指标,能更真实的指示系统性能问题。
性能验收:性能验收测试的运行环境必须是确定的,验证系统在确定的场景条件下是否达到了其宣称的能力规格。 负载测试:是在被测系统上进行负载阶梯加载,直至摸到系统性能极限,一般用来测试系统性能容量或调优。 压力测试:是检查系统处于超负载压力下的性能表现,可以考察系统的流控机制和极限场景下的性能。 长时
可观测性(observability)最初是系统理论中的一个概念,指系统的状态能否被外部观察到和重现。随着云原生、微服务架构的发展,IT系统对可观测性的需求日益增强。业界对可观测性的定义:通常是指基于对复杂系统外部输出的了解,能够了解其内部状态或状况的程度。系统越可观测,定位问题根本原因的过程
、移动端、跨云、多语言SDK、多账号汇聚,满足全场景客户丰富的日志接入需求。 海量日志存储搜索:百亿日志秒级搜索,千亿日志迭代搜索,PB级智能冷存储。 SQL统计和可视化图表:100+SQL函数、多种可视化图表、10多种开箱即用仪表盘。 实时日志告警:自定义告警内容,短信/邮件/微信/钉钉/HTTP多渠道通知。
对于提供用户画像的系统应为用户提供退出用户画像分析的机制。 相关云服务和工具 数据安全中心DSC:用户可以通过DSC的预置脱敏规则,或自定义脱敏规则来对指定数据库表进行脱敏,DSC支持RDS,ECS自建数据库等云上各类场景。另外,DSC可基于扫描结果自动提供脱敏合规建议,支持一键配置脱敏规则。
RES04-01 定义应用系统的容灾目标RPO与RTO 在进行容灾设计前,需要根据应用系统的重要性,明确其容灾目标,通常以RPO和RTO指标来定义: RPO:允许的数据丢失量,与数据的周期性复制周期或连续性复制延时相关。 RTO:允许的业务恢复时长,即业务中断时长,与灾备端业务的部署与切换方式相关。
出现问题后尽快恢复业务 应用系统出现故障后,需要能尽快发现,尽快响应。 风险等级 高 关键策略 可以通过以下途径实现故障的快速发现: 监控:应用系统需要提供业务监控信息,以便实时了解系统运行状态;维护团队需要有专人观测,并在发现故障发生时,需要及时响应。 告警:应用系统在检测到故障后需要及
及的安全措施进行验证,以确保它们按照预期方式运行并有效地保护系统,从而缓解或消除安全威胁。 风险等级 高 关键策略 依据系统的安全设计文档,通过验证确保安全措施被正确地集成到系统中,并符合最佳实践和标准。 尽早检视系统的代码(此过程称为代码白盒安全检视),确保代码符合安全最佳实践,避免在后续阶段发现严重的安全漏洞。
10分钟,恢复处理时长为5分钟,则每年故障中断时长为45分钟。 变更中断:假定应用支持金丝雀部署或蓝绿部署,并自动完成,软件更新不中断业务。 按照以上评估,每年应用系统不可用的时长是45分钟,满足可用设计目标要求。 电子商务类应用典型架构为前端无状态应用层+后端数据库,其中前端无
OPS03-04 对生产环境进行拨测 风险等级 高 关键策略 拨测是利用软件系统以外,甚至现有账号或云Region外的系统,以系统用户使用场景为视角,模拟用户使用场景的测试。和普通的云拔测可实现对网络质量、页面性能、端口性能、文件传输、音视频体验等场景进行周期性监控,支持多维度分
责任共担模式 云上应用系统的韧性,依赖于云基础设施及应用系统本身的韧性,任何一方故障,都可能会导致云上应用系统故障;因此需要华为云与客户共同承担责任,来保障应用系统的韧性。 华为云责任:华为云提供高可用的基础设施,包括运行华为云服务的硬件、软件和机房设施,并确保服务可用性满足SLA服务等级协议。
SEC05-03 减少资源的攻击面 通过加固操作系统、减少未使用的组件和外部服务,以及使用工具加强云安全,减少资源的攻击面。 风险等级 高 关键策略 强化操作系统和减少组件:通过减少未使用的组件、库和外部服务,可以缩小系统在意外访问下的危险。这包括操作系统程序包、应用程序以及代码中的外部软件模块。
SQL_EXPORTER 主机监控 主机监控提供了包括基础监控和操作系统监控两种不同监控粒度层次的监控。基础监控为 ECS自动上报的监控指标,操作系统监控通过在ECS中安装Agent插件,为用户提供服务器的系统级、主动式、细颗粒度监控服务。主要关注:CPU_UTIL、DISK_R
而稳定的业务组织则可以以成本效率为主要考量,设计比较严格的云成本优化策略。 企业还可以借助华为云成本中心提供的云成本管理工具和平台来实现自动化的成本监控和优化。 节省和优化,使用不同的计费模式,资源优化和架构优化 云支出的主要影响因素是费率和用量,结合云化业务模型和成本数据分析
Engineering)是通过故障注入,验证故障快速恢复能力及系统可靠性的实践活动。 风险等级 高 关键策略 通过混沌工程的方法模拟可能出现的故障,进而综合验证系统在不同故障场景下的容错能力、监控能力、应急响应能力、定界定位、快速恢复等确定性恢复能力。 验证高可用设计:业务系统在规划设计阶段进行架构高可用设计、监控设计,在上线前进行生产准备度评审
关键策略 设计态与运行态一致性:对照设计态的架构图、架构文档实施云服务资源。工作负载运行时的架构始终保持与设计态一致。 自动化资产盘点:使用安全云服务或工具来自动发现和记录云上资源,包括主机、存储、数据库、网络等。这样可以确保资产清单的及时性和准确性。 标签和元数据:使用标签和元数
监控数据包括统计和日志信息,均需要存储并进行生命周期管理,以满足数据监控的保留要求;并定期对其进行分析,以了解系统运行状态和趋势。 风险等级 中 关键策略 监控数据存储时长需要满足保留要求。 监控数据需要定期分析,以便发现或预测系统故障,减少业务中断。 相关云服务和工具 LTS云日志服务:支持日志分析与数据转储
OPS06-04 规范化应用日志 日志是随时间推移发生的不可变、记录时间戳的离散事件。系统需要记录关键事件和故障,以帮助诊断问题和解决故障。 风险等级 高 关键策略 对于一个系统来说,日志是非常重要的。它可以记录在系统中发生的一切,包括成功的操作、错误的操作、警告信息等等。因此,日志记录是可
严酷度是度量故障给系统造成的最坏潜在后果,一般分为四个等级:Ⅰ类(严重)、Ⅱ类(较严重)、Ⅲ类(一般)、Ⅳ类(轻微)。 I类:这种故障会导致整个系统崩溃或主要功能受到严重影响; II类:这种故障会导致系统主要功能受到影响、任务延误的系统轻度损坏或存在较大的故障隐患; III类:系统次要功能