检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
是所有/大部分功能丧失。II类故障指主要功能受影响。III类故障可简单理解为需要尽快修复的故障。 通常来说,当一个故障不能被检测出来时,会认为这是一个故障“隐患”,相应的故障严酷度级别上升一级。 标识系统中的所有组件及功能模块 明确应用系统涉及的所有组件,以及外部依赖项,如提供者、第三方服务等。
则只有在所有负载均衡器均检测到云服务器状态为正常的情况下,才会认为该弹性云服务器正常。否则只要有一个负载均衡器检测到云服务器状态异常,伸缩组会将该弹性云服务器移出伸缩组。 以上两种健康检查方式,检查的结果均是将异常的云服务器从伸缩组中移除。详见“弹性伸缩健康检查”。 跨AZ容灾
要将资源放置在VPC的公有子网中。 对于入站和出站流量,应采用深度防御方法。例如对入站流量进行入侵检测、防范恶意的网络攻击。对出站的流量使用NAT网关配置仅出站的单向连接。 流量过滤。使用防火墙、ACL控制内部和外部网络之间的访问流量以及内部网络中敏感区域的输入及输出流量,并对所
基础设施即代码 基础设施即代码(IaC)是指使用代码而不是手动流程来管控基础设施的能力。 应用程序环境都需要许多基础设施组件,例如操作系统、数据库连接和存储。 开发人员必须定期设置、更新和维护基础设施,以开发、测试和部署应用程序。 手动管理基础设施既耗时又容易出错,尤其是在大规模管理应用程序时。
的虚拟用户运行一种或多种业务,将测试结果作为基线数据,在系统调优或系统评测的过程中,通过运行相同的业务场景比较测试结果,确定调优的结果是否达到预期效果或者为系统的选择提供决策数据。 在性能压测过程中,需要模拟或者还原现实业务场景进行测试,这就必须借助特定测试工具达到相应的要求。不
华为云服务实例支持主动横向或纵向扩容功能;如对于ECS实例可以通过创建多个ECS实例实现横向扩容,也可升级ECS规格实现纵向扩容;对于RDS实例可升级RDS实例规格实现纵向扩容。 父主题: RES13 过载保护
完整性。 确保存储了重要业务数据、敏感数据的OBS桶,配置为非公开可读,防止数据被非法访问。 制定风险管理计划:了解数据被意外披露、更改或删除可能会带来的业务影响,有助于制定相应的风险管理计划。 相关云服务和工具 数据库安全服务 DBSS 数据加密服务 DEW 父主题: SEC07
分层管理密钥。最少把密钥分为两层,即:根密钥和工作密钥,根密钥为工作密钥提供加密保护。 使用安全的随机数生成器来生成密钥,确保密钥的随机性和不可预测性。避免使用弱密钥或者固定密钥。 传输密钥: 使用安全的通信渠道传输密钥,如加密通道或者物理传输。 确保传输过程中密钥不被窃取或篡改。 使用密钥: 最小化
类的对象存储服务(Object Storage Service,OBS),应用类的云应用引擎(Cloud Application Engine, CAE),容器类的云容器实例(Cloud Container Instance,CCI)以及计算类的函数工作流(FunctionGraph)
RES04-03 容灾恢复过程自动化 由于容灾恢复场景涉及容灾站点的业务恢复、数据库的主备切换、业务到容灾站点的流量切换等,恢复过程比较复杂,因此需要提供容灾管理功能,实现容灾状态及RPO监控,以及灾难场景下的一键式自动切换,减少人工干预。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。
当前租户所使用的所有云服务,并将当前租户的所有操作记录在该追踪器中。CTS服务具备对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 云堡垒机 CBH 数据库审计 DBSS 安全云脑 SecMaster 消息通知服务 SMN
云日志服务(LTS) 云日志服务(Log Tank Service,简称LTS)是高性能、低成本、功能丰富、高可靠的日志平台,提供全栈日志采集、百亿日志秒搜、PB级存储、日志加工、可视化图表、告警和转储等功能,满足应用运维、等保合规和运营分析等应用场景需求。 云日志服务提供多种接
SEC01-03 梳理资产清单 梳理工作负载涉及的服务器、IP地址、域名、数据库、证书等全量云资源的资产清单,给资源打上标签,从而在出现安全事件时,能快速定位到有安全风险的资源。 风险等级 高 关键策略 设计态与运行态一致性:对照设计态的架构图、架构文档实施云服务资源。工作负载运行时的架构始终保持与设计态一致。
OPS06-05 实施依赖项遥测 风险等级 高 关键策略 依赖项遥测可以监控工作负载所依赖的外部服务和组件的运行状况及性能。提供有关与 DNS、数据库或第三方 API 等依赖项相关的可访问性、超时及其他关键事件的高价值指标采集。当对应用程序进行检测,以发布有关这些依赖项的指标、日志和跟踪
实例正在进行主备切换时;应用故障重试处理可参考“故障重试”。 当DCS实例由于过载导致网络限制时,可参考“DCS的CPU /内存/带宽/数据库连接数使用率过高”的处理。 对于非暂行性故障,应用层需要能回退到原始数据源进行处理,避免由于缓存故障而导致业务无法运行。 读写DCS概率性失败
从而保证社会效益最大化。 变更防差错 当对系统进行升级部署、配置变更时,需要防止变更过程中由于人因差错导致系统和业务受损或失效。 通常采用防呆的方式来减少人因差错。防呆是一种预防矫正的行为约束手段,运用防止错误发生的限制方法,让操作者不需要花费注意力、也不需要经验与专业知识,凭
导致通信量或者处理量大辐增加,性能大辐下降。 共享资源: 采取共享资源的设计,通过协作减少争用延时从而改善整体性能;如多个进程可以从一个数据库的同一部分读取。 并行处理:当并行处理过程的增速能抵消通信开销和资源争用延迟时,执行并行处理。 分散负载原则:通过在不同时间或者不同位置处
业务检测也可以采用调用链来完成。 故障检测方法根据类型有很多种,下面是一些在高可用性系统中常用的故障检测方法。 数值范围检查:在大多数应用中,一个操作的结果必须处于某个范围之内。对这些边界条件可以进行一些测试来验证数据是否满足预期要求。 数据完整性检查:每当数据被从一个单元传递给
设计建议 整体技术方案会变成标准并进行发布,各个业务系统架构师在设计时遵循这套标准,这样可以保证能力能够从设计态开始,包括运行态、高可用架构等场景中得到应用。 可观测指标可以通过监控工具来实现,并允许在发生异常时发送警报。有很多监控工具可以使用,例如Prometheus、Grafana、