检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
安全事件演练 安全事件演练是一种模拟性的活动,旨在让组织成员在一个模拟的安全事件场景下进行实际操作和应对,以测试和提高其应对安全事件的能力。通过安全事件演练,组织可以评估其安全事件响应计划的有效性,发现潜在的问题并进行改进,提高团队的准备性和反应能力。 风险等级 高 关键策略 按照“三化六防
RES07-04 监控数据存储和分析 监控数据包括统计和日志信息,均需要存储并进行生命周期管理,以满足数据监控的保留要求;并定期对其进行分析,以了解系统运行状态和趋势。 风险等级 中 关键策略 监控数据存储时长需要满足保留要求。 监控数据需要定期分析,以便发现或预测系统故障,减少业务中断。
RES13-03 过载检测与流量控制 当应用系统发生过载时,可能会导致系统疲于处理请求而无法有效提供服务,因此需要进行过载检测并进行流量控制。 风险等级 高 关键策略 过载控制(也称流控)指系统处于过载时,通过限流、降级、熔断、弹性伸缩等手段,使系统保证部分或者全部额定容量业务成
参数调优后性能仍然与转商目标有较大的差距,需要考虑进行profiling,采集性能数据后从更底层的算子、通信、调度和内存等维度将性能进行拆解分析,训练脚本中加入profiling代码。具体步骤:生成profiling数据目录结构;利用att工具,将NPU与竞品之间的数据进行端到端耗时对比分析;Tracing分析。
建立可以量化的优化目标 风险等级 高 关键策略 成本优化是一项投资,而且是一个需要持续进行的流程。为了向公司或者组织的决策者、利益相关方说明投资的价值,就需要对成本优化自身,尤其是其执行的目标进行量化。从而在持续的优化活动中,都可以从决策者或者利益相关者那里得到支持,并获得一个固化的流程框架来衡量成本优化活动的成果。
同步服务进行跨AZ数据同步时,可利用该服务进行跨AZ数据同步;如存在有状态数据的ECS实例不支持跨AZ高可用,但可通过SDRS服务进行跨AZ数据同步。 当应用组件对应的云服务实例不支持跨AZ高可用实例,且不支持跨AZ数据同步或不使用跨AZ数据同步服务时,则需要由应用层进行数据复制;如存在有状态数据的BMS实例。
耗更多的服务器时间来获取所需的成功响应。 风险等级 高 关键策略 请求超时,可能是链路闪断或其他临时性故障导致消息丢失,可以进行重试。 根据错误响应码进行有针对性的重试;对于临时性故障,如错误码指示为系统繁忙时,可等待一段时间后重试,否则无需重试。 请求SDK中内置了消息重试时,客户端无需重复重试。
重试需要避免造成流量压力 对于链路闪断等原因导致的临时性故障,客户端进行一定的重试,可取得较好的效果;对于流量过载等原因导致的故障,重试可能会导致情况进一步恶化,因此需要避免这种影响。 风险等级 高 关键策略 客户端进行重试处理时,建议: 增加指数回退和抖动方法,以避免对服务端造成流
软硬件注入故障,不断验证业务系统的可靠性;而红军则需要按照预先定义的故障响应和应急流程进行处置。 演练结束后,建议针对故障中的发现、响应、恢复三个阶段的时长和操作内容进行复盘,并梳理改进点进行优化,提升业务系统的稳定性。 父主题: RES11 可靠性测试
风险等级 高 关键策略 在部署或升级过程中集成基本测试功能,在部署或升级完成后自动进行检查和测试,以验证新部署的代码功能是否正确。 在部署或升级过程中集成故障注入测试功能,在部署或升级完成后自动注入故障进行测试,以验证新部署代码的韧性。 父主题: RES15 升级不中断业务
高、数据故障(被误删等)、AZ故障、Region故障等。 提供故障检测和缓解措施 针对每种故障模式,需要分析如何检测和恢复,提出改进建议措施,并在系统复杂度和成本之间进行综合考虑,优先解决严酷度高的故障模式。 相关云服务和工具 云运维中心 COC:支持故障模式管理。 父主题: RES06
SEC01-04 分隔工作负载 分隔工作负载是一种架构上进行分治的思想,通过将整个系统的工作负载分割成更小的部分,每个部分独立运行和管理,从而提高系统的安全性和可维护性。 风险等级 高 关键策略 一个企业特别是大型企业往往有多个不同类型(如生产环境、开发环境、测试环境)或不同组织
须对安全性的各个方面进行总体策略上的考虑。企业的管理层和安全团队需要根据企业总体安全战略和业务战略制定云安全战略,并且需要在计划采用云服务时尽早考虑安全性。 云安全治理策略包括安全团队、安全基线、安全资产、安全建模以及核心的安全控制点。企业需尽早规划和思考如何使用云技术和云服务来
或建立监控机制。 使用数据库安全服务DBSS对数据库行为进行审计。数据库安全审计提供旁路模式审计功能,通过实时记录用户访问数据库行为,形成细粒度的审计报告,对风险行为和攻击行为进行实时告警,对数据库的内部违规和不正当操作进行定位追责,保障数据资产安全。 启用数据库安全审计告警。通
透测试的速度,并提高效率。 分析测试结果:对渗透测试结果进行深入分析,以确定系统性安全问题,并为进一步的自动化测试和开发者培训提供有用信息。 为构建者提供培训:提供培训,让开发者了解从渗透测试结果中可以期待获得什么,以及如何获取有关修复的信息,以促进问题的及时解决。 父主题: SEC06
配合弹性负载均衡ELB服务,可以对弹性伸缩组创建的弹性云服务器进行负载均衡。 健康检查 健康检查会将异常的实例从伸缩组中移除,伸缩组会重新创建新的实例以维持伸缩组的期望实例数和当前实例数保持一致,伸缩组的健康检查方式主要包括以下两种。 云服务器健康检查:是指对云服务器的运行状态进行检查,如关机、删除都是云服务器
通过优化提高效率 在初始阶段设置的目标考虑到各种约束和业务目标,随着业务的增长应不断进行调整。为了进一步优化性能效率,需要清楚地了解系统的使用方式、演变过程,以及平台或技术是如何随时间变化的。需要预留足够的时间来进行持续的性能优化,可以构建性能驱动的优化文化,让团队成员主动监视性能数据;通
环境的自动化方式。 Telemetering 遥测 遥测是对被测量对象的参数进行远距离测量的一种技术。是将对象参数的近距离测量值传输至远距离的测量站来实现远距离测量的技术,并把测得结果传送到接收地点进行记录、显示和处理的活动。 CMDB 配置管理数据库(configuration
第一时间将大部分的服务请求闭环。二线处理一线升级的服务请求和监控发现的客户的问题,按照SLA完成闭环,涉及到软件版本缺陷类问题升级到三线进行解决,大部分时间处理告警、事件和故障的恢复,其余时间开展转维验收、应急预案与演练等主动运维活动,对现网的稳定性和可用性负责。三线聚焦解决软件版本缺陷问题。
本章节介绍常用云服务的可靠性功能与故障模式,以便应用系统能充分利用云服务提供的可靠性能力,提升应用系统的可靠性,并能针对云服务的常见故障模式,进行故障恢复处理,以便最大限度减少故障,并能从故障中恢复。 父主题: 云服务可靠性介绍