检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES06-03 支持亚健康检测 系统内组件有可能完全故障,也有可能处于亚健康状态;亚健康是指系统整体业务未超标,但系统中局部实例业务超标。亚健康更多是个相对概念,相对历史表现的统计,或相对系统整体。因此针对亚健康的检测和判断有所不同。当处于亚健康状态时,系统也需要及时进行隔离或恢复处理,避免对业务造成影响。
检测到故障后需及时告警或自动恢复。 针对具体故障进行检测时,根据检测的类型通常可以分为资源检测、功能检测和业务检测。 资源检测:云环境中一般指虚拟化后的物理硬件资源及其对应的软件资源,具体包含CPU、内存、网络和磁盘资源等。 功能检测:对组成产品系统的各个内部模块对象进行检测的过程,确定模块功能是否满足设计的
RES06 故障检测 RES06-01 故障模式分析 RES06-02 面向所有故障进行检测 RES06-03 支持亚健康检测 父主题: 故障全面检测
故障全面检测 高可用性系统必须具有完善的故障检测能力,以确保能够快速发现那些可能导致故障的事件、显示正在发展的故障、激活的故障,以及潜在的故障的事件。在几乎所有情况下,故障检测能力都是故障恢复的前提。 RES06 故障检测 RES07 监控告警 父主题: 韧性支柱
ion故障等。 提供故障检测和缓解措施 针对每种故障模式,需要分析如何检测和恢复,提出改进建议措施,并在系统复杂度和成本之间进行综合考虑,优先解决严酷度高的故障模式。 相关云服务和工具 云运维中心 COC:支持故障模式管理。 父主题: RES06 故障检测
RES07-03 监控到异常后发送消息通知 RES07-04 监控数据存储和分析 RES07-05 端到端跟踪请求消息 父主题: 故障全面检测
RES13-03 过载检测与流量控制 当应用系统发生过载时,可能会导致系统疲于处理请求而无法有效提供服务,因此需要进行过载检测并进行流量控制。 风险等级 高 关键策略 过载控制(也称流控)指系统处于过载时,通过限流、降级、熔断、弹性伸缩等手段,使系统保证部分或者全部额定容量业务成
RES07-02 日志统计监控 应用系统需要收集日志,在必要时对日志进行统计分析,设置告警规则触发告警,统计分析的内容可以是统计一定时间段内某些关键字出现的次数。 风险等级 中 关键策略 日志关键字与出现次数阈值需要合理设置,以免监控信息不正确。 日志信息(如关键字或出现频率)发生变化时,需要及时更新告警规则。
RES07-04 监控数据存储和分析 监控数据包括统计和日志信息,均需要存储并进行生命周期管理,以满足数据监控的保留要求;并定期对其进行分析,以了解系统运行状态和趋势。 风险等级 中 关键策略 监控数据存储时长需要满足保留要求。 监控数据需要定期分析,以便发现或预测系统故障,减少业务中断。
RES07-05 端到端跟踪请求消息 端到端跟踪请求消息的处理流程,便于分析和调试问题,并提高处理性能。 风险等级 低 关键策略 消息跟踪需要包含消息处理流程中所有组件,以便跟踪结果完整,从而进行准确分析和定位。 相关云服务和工具 应用性能管理 APM:支持调用链追踪,能够针对应
RES07-01 定义关键指标与阈值并监控 对资源进行监控时,需要先定义资源的关键指标以及对应的阈值,以便快速有效的发现业务表现和系统状态,以便在异常状态下尽早干预恢复,或定位改进系统缺陷。 风险等级 中 关键策略 关键指标需要与系统内工作负载的关键性能指标相关,并能确定为系统性
RES07-03 监控到异常后发送消息通知 当对应用系统监控发现应用异常后,需要向相应的人员和系统发送实时通知消息和告警,以便及时处理。 风险等级 中 关键策略 采用实时快捷的消息通知方式,以便相关人员能及时得到消息。 消息发送人员需要涵盖运维人员,以便及时恢复。 运维人员需要有备份,避免单点风险。
的安全参考架构。 该架构主要的安全设计如下: 网络安全 防DDoS攻击使用AAD服务 Web类攻击采用WAF防护 采用SSL证书进行通信加密 互联网边界、VPC之间采用云防火墙 运行环境安全 企业主机安全服务保护主机安全和容器安全 VPC内访问控制使用网络ACL+安全组 使用漏洞扫描服务定时扫描云上各资源漏洞
防风险,同时,可以让威胁检测和响应更智能、更快速,帮助您实现一体化、自动化安全运营管理,满足您的安全需求。 威胁检测服务 MTD:威胁检测服务持续发现恶意活动和未经授权的行为,从而保护账户和工作负载。该服务通过集成AI智能引擎、威胁黑白名单、规则基线等检测模型,识别各类云服务日志
户优化安全组和防火墙控制规则、监控网络流量、进行网络攻击分析等。关于安全日志更多见:SEC09-01 实施标准化管理日志 相关云服务和工具 VPC、VPCEP 企业路由器 ER 云连接 CC 云防火墙 CFW:提供云上互联网边界和VPC边界的防护,包括实时入侵检测与防御、全局统一
RES15-03 自动化回滚 在升级或部署过程中出现异常,或检查/测试失败时,支持自动回滚,减少人工干预,避免回滚失败。 风险等级 高 关键策略 检测到异常后,可一键式回滚。 回滚过程自动化完成。 父主题: RES15 升级不中断业务
CCE集群的CPU /内存/磁盘容量使用率过高 检测:通过AOM监控CCE集群的CPU/内存/磁盘容量使用率。 恢复: 根据业务情况,手工变更集群规格或扩展资源。 CCE节点的CPU /内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率过高 检测:通过AOM监控CCE节点的CPU/内存
从边界的纵深拦截延伸到内网的异常监控;从被动的监控防御延伸到主动的诱捕溯源。 用户需求变化 产品层面:除传统的入侵防御、WAF和漏扫之外,对资产测绘、APT检测、安全情报和蜜罐的需求在不断增加。 服务层面:除保障期间的安全加固和值守服务外,对日常的安全巡检、安全培训和内部攻防演习需求不断增加。
BMS实例或挂载的磁盘或数据被意外删除 检测:NA 恢复:对于无状态业务,使用模板快速发放新实例;对于有状态业务,使用CBR云备份服务对BMS云硬盘进行定期备份,在数据被删除时使用备份数据快速恢复。 BMS实例物理服务器或本地盘故障 检测:应用层检测物理服务器和本地盘运行状态 恢复:应
常见故障模式 弹性伸缩失败 检测:查看弹性伸缩组的弹性伸缩活动历史。 恢复: 根据伸缩活动失败描述信息进行修复。 父主题: AS弹性伸缩