检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
中间件层:Redis、Kafka集群跨可用区高可用部署。 数据层:MySQL数据库高可用,通过DRS数据复制服务实现跨云的数据库复制与容灾切换;并可定期自动备份数据,在数据丢失时快速恢复业务。OBS对象存储服务同样支持跨Region复制能力。 为了保证数据的可靠性,RDS数据库的数据定期自动备份到OBS,在数据丢失时可以快速恢复。
立监控机制。 使用数据库安全服务DBSS对数据库行为进行审计。数据库安全审计提供旁路模式审计功能,通过实时记录用户访问数据库行为,形成细粒度的审计报告,对风险行为和攻击行为进行实时告警,对数据库的内部违规和不正当操作进行定位追责,保障数据资产安全。 启用数据库安全审计告警。通过设
电子商务类应用典型架构为前端无状态应用层+后端数据库,其中前端无状态应用可采用ECS或CCE;后端数据库基于不同业务类型可采用不同数据库,通常采用RDS for MySQL;同时通常还会使用DCS、Kafka等中间件及DDS文档数据库;为满足对应的可用性目标,建议采用以下方案。 单Region方案
COST07-01 持续监控资源利用率指标 风险等级 高 关键策略 持续地在组织中定义资源的核心利用率指标(如CPU利用率,内存,CDN服务的流量,数据库的TPS),按(天、周、月)等时间周期发现规律,对低利用率资源的应用/项目进行审查。 父主题: COST07 管理和优化资源
常见故障模式 ELB的并发连接数/新建连接数/带宽使用率过高 检测:通过CES监控ELB的并发连接数/新建连接数/带宽使用率。 恢复: 根据业务情况,采用独享型负载均衡器,并手工调整ELB负载均衡器规格。 父主题: ELB弹性负载均衡
内部工具类应用典型架构为前端无状态应用层+后端数据库,其中前端无状态应用可采用ECS或CCE(以ECS为例),后端数据库基于不同业务类型可采用不同数据库,通常为RDS for MySQL;为满足对应的可用性目标,建议方案如下: 类别 实施方案 冗余 ECS与RDS单节点部署。 备份 RDS自动备份,在数据故
能保持机密性。 风险等级 高 关键策略 启用默认加密。对云硬盘 EVS、关系数据库 RDS、对象存储服务 OBS、弹性文件服务 SFS等云服务配置默认加密,以自动加密存储的数据。启用RDS、DWS等数据库的加密,可降低拖库、数据泄露带来的安全风险。 针对敏感数据,采取加密、掩码、
层+后端数据库,其中前端无状态应用采用ECS,后端数据库基于不同业务类型可采用不同数据库,通常为RDS for MySQL;基于业务需要,通常还会使用DCS、Kafka等中间件及DDS文档数据库;为满足对应的可用性目标,建议方案如下: 类别 实施方案 冗余 ELB、RDS、DCS
进行备份,即最小RPO=1小时,用户需要根据数据重要性选择合适的备份周期。 数据库自动备份:RDS、DDS、GaussDB等数据库服务提供了缺省自动备份功能,实例每5分钟自动进行一次增量备份,以保证数据库的可靠性。 DCS备份:DCS服务针对非单机实例提供了自动备份和手工备份功能,建议设置自动备份策略进行备份。
请求量自动扩展业务处理能力,用户无感知。 RDS服务最多支持5个只读副本,可在线扩展只读负载;一键规格变更实现CPU、内存扩容/缩容;在线存储容量扩容。 CCE服务支持配置自动扩容集群节点和工作负载,伸缩策略支持告警(按CPU或内存使用率触发)、定时、周期多种方式。 相关云服务和工具
RES04-03 容灾恢复过程自动化 由于容灾恢复场景涉及容灾站点的业务恢复、数据库的主备切换、业务到容灾站点的流量切换等,恢复过程比较复杂,因此需要提供容灾管理功能,实现容灾状态及RPO监控,以及灾难场景下的一键式自动切换,减少人工干预。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。
工作负载、数据库实例等。 针对应用系统内的关键数据,利用云服务或应用系统自身实现跨Region的数据复制。 若云服务实例支持跨Region容灾,则配置生产站点与灾备Region之间的复制,如对于RDS数据库实例,需申请DRS实例对主Region与灾备Region的数据库进行实时复
可用度及SLO 可用性目标用于衡量应用系统的运行时间和停机时间,其表现形式为应用系统正常运行的时间占总时间(通常是一个月或一年)的百分比(如99.9%),即: 可用度 = 可用时间 / 总时间 * 100% 常见的简单表达方式用“9”的数量或“9”的数量加“5”表示,如“三个9”表示“99
常见故障模式 ECS的CPU /内存/磁盘容量/磁盘IOPS使用率过高 检测:通过CES监控CPU/内存/磁盘容量/磁盘IOPS使用率。 恢复: 根据业务情况,手工变更规格以扩展资源或增加ECS实例进行负荷分担。 对于无状态业务,启动AS弹性伸缩,自动扩展资源。 应用层进行过载保护,保障优先业务的运行。
broker_disk_usage 磁盘容量使用率 该指标为从Kafka节点虚拟机层面采集的磁盘容量使用率。 broker_cpu_core_load CPU核均负载 该指标为从Kafka节点虚拟机层面采集的CPU每个核的平均负载。 broker_memory_usage 内存使用率 该指标为Kafka节点虚拟机层面采集的内存使用率。
OPS07-01 创建可操作的告警 风险等级 高 关键策略 收到告警时,一般需要做出响应,消除无须响应的告警。 比如磁盘IO 量瞬间飙升,CPU 使用率瞬间飙高,这类告警无需做出响应,对业务而言,意义就不大了。 遵循可操作性原则能避免很多误报。并且要定期统计和分析告警频率,识别高频告警,解决告警问题,清除明确的告警误报。
常见故障模式 BMS的CPU /内存/磁盘容量/磁盘IOPS使用率过高 检测:通过CES监控CPU/内存/磁盘容量/磁盘IOPS使用率 恢复: 根据业务情况,更换规格更高的BMS实例或增加BMS实例进行负荷分担。 应用层进行过载保护,保障优先业务的运行。 连接后端BMS失败 检测:网络连接失败。
SEC02-03 安全管理及使用凭证 在进行身份验证时,首要选择使用临时凭证而非长期或永久性凭证,以减少或消除因凭证意外泄露、共享或被盗而带来的风险。 风险等级 高 关键策略 长期凭证如用户的登录密码、永久AK/SK,短期凭证如临时AK/SK、通过委托获取的权限等。禁止将长期凭证
指标ID 指标名称 指标说明 cpu_usage CPU使用率 该指标用于统计ModelArts用户服务的CPU使用率。 mem_usage 内存使用率 该指标用于统计ModelArts用户服务的内存使用率。 gpu_util GPU使用率 该指标用于统计ModelArts用户服务的GPU使用情况。
SEC09-02 安全事件记录及分析 在发生安全事件之前,可以考虑构建取证能力来支持安全事件调查工作。记录攻击和异常行为并对其分析:应在关键网络节点处(例如内外网的交界处、ELB流量转发处等)检测、防止或限制网络攻击行为;应采取技术措施对采集的安全日志进行持续监控和分析,实现对网