检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
手动管理基础设施既耗时又容易出错,尤其是在大规模管理应用程序时。 风险等级 高 关键策略 使用声明式工具:与命令式工具相比,声明式工具是部署和管理 IaC 的更好的整体选择。声明性工具对其定义文件使用更简单的语法,仅定义部署完成后所需的环境状态。命令式工具需定义达到所需最终状态所需的步骤,因此文件可能比声明性
观测性能指标(GaussDB为例) 指标ID 指标名称 指标说明 rds001_cpu_util CPU使用率 该指标用于统计测量对象的CPU使用率。 rds002_mem_util 内存使用率 该指标用于统计测量对象的内存使用率。 rds003_bytes_in 数据写入量 该指标用于统计测量对象对应VM的网络发送字节数,取时间段的平均值。
HBase的基础上进行扩展和优化,具有高性能、高可靠性、强大的扩展性和灵活的伸缩性等特点,适用于金融、电信、物流、游戏等场景。 同关系型数据库一样,非关系型数据的选择同样主要基于兼容性与场景评估两个原则: 场景一:基于兼容性原则 考虑平滑上云,上云前系统中数据库的选型已经过业务实践的检验,建议选取生态相同的关系
建立可以量化的优化目标 3. 定期回顾和审核 COST06 您是否使用考虑了不同的计费模式优化成本? 1. 了解云上不同计费模式的特点 2. 为工作负载选择合适的计费模式 3. 跟踪并监控权益商品的使用情况 COST07 您是否管理了和优化了资源使用情况? 1. 持续监控资源利用率指标 2. 释放闲置资源
问题和检查项 企业在进行应用韧性设计的过程中,推荐使用如下问题寻找自身可以改进的点,并参考检查项/最佳实践进行改进,以下所有检查项,也是最佳实践建议,将在下一章节进行详细描述。 问题 检查项/最佳实践 RES01 您如何使用冗余技术确保应用系统的高可用? 应用组件高可用部署 应用组件多位置部署
常见故障模式 ELB的并发连接数/新建连接数/带宽使用率过高 检测:通过CES监控ELB的并发连接数/新建连接数/带宽使用率。 恢复: 根据业务情况,采用独享型负载均衡器,并手工调整ELB负载均衡器规格。 父主题: ELB弹性负载均衡
connections_usage 连接数使用率 当前节点实际连接数占最大连接数比率。 rabbitmq_disk_usage 磁盘容量使用率 统计Rabbitmq节点虚拟机的磁盘容量使用率。 rabbitmq_cpu_usage CPU使用率 统计Rabbitmq节点虚拟机的CPU使用率。 rabbitmq_memory_usage
ECS实例或挂载的磁盘或数据被意外删除 检测:NA 恢复:对于无状态业务,使用模板快速发放新实例;对于有状态业务,使用CBR云备份服务对ECS进行定期备份,在数据被删除时使用备份数据快速恢复。 ECS实例使用本地盘时本地盘故障 检测:应用层检测本地盘运行状态。 恢复:应用层采用RA
业务请求。 BMS实例或挂载的磁盘或数据被意外删除 检测:NA 恢复:对于无状态业务,使用模板快速发放新实例;对于有状态业务,使用CBR云备份服务对BMS云硬盘进行定期备份,在数据被删除时使用备份数据快速恢复。 BMS实例物理服务器或本地盘故障 检测:应用层检测物理服务器和本地盘运行状态
常见故障模式 RDS的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高 检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启存储空间自动扩容,以便在磁盘容量不足时自动扩容。 应用层进行过载保护,保障优先业务的运行。
cture as a Code;以解决手工部署中易于出错、依赖个人能力,手工配置中变更无法跟踪、难以回滚等难题。 风险等级 高 关键策略 使用配置管理工具进行变更:集中管理配置信息,发现和记录配置变化情况,快速识别变更影响范围。 采用自动化变更流程:帮助组织规划和自动化变更流程,
OPS07-01 创建可操作的告警 风险等级 高 关键策略 收到告警时,一般需要做出响应,消除无须响应的告警。 比如磁盘IO 量瞬间飙升,CPU 使用率瞬间飙高,这类告警无需做出响应,对业务而言,意义就不大了。 遵循可操作性原则能避免很多误报。并且要定期统计和分析告警频率,识别高频告警,解决告警问题,清除明确的告警误报。
源支撑业务发展。 风险等级 高 关键策略 云上网络规划设计应满足以下原则: 针对每个Region,根据业务需要规划不同的VPC,每个VPC使用独立的地址空间;并需要预留IP地址空间用于新建VPC。 针对每个VPC中,需要根据业务需要规划子网和IP地址空间;并需要预留IP地址空间用于新建子网。
PU /内存/带宽/数据库连接数使用率过高”的处理。 对于非暂行性故障,应用层需要能回退到原始数据源进行处理,避免由于缓存故障而导致业务无法运行。 读写DCS概率性失败 检测:读写失败。针对低概率超时错误,是Redis使用的正常现象。Redis使用受到网络传输、客户端设置超时时间等因素影响,可能出现单个请求超时问题。
高 关键策略 强密码:使用强密码来保护账号,包括数字、字母、特殊字符的组合,并确保密码足够长且复杂。 多因素认证(MFA):启用多因素认证为保护账号提供了额外的安全层次。除了密码之外,MFA需要额外的身份验证信息,提高了账号的安全性。 限制日常操作:避免直接使用账号进行日常操作,而
RES02-02 自动数据备份 对于需要备份的数据,可根据该数据的RPO指标要求,设置定期备份策略进行自动备份。 风险等级 高 关键策略 使用华为云备份服务或第三方备份软件对数据进行备份,并可根据RPO要求设置自动备份频率。CBR云备份服务可对ECS/BMS/EVS/SFS Tu
RES11-03 长稳测试 基于用户使用场景构建业务模型,自动化构建覆盖系统容量规格70%的业务量,持续7*24小时进行长时间负载测试以评估系统稳定性。 风险等级 高 关键策略 模拟各种业务场景进行测试。 持续自动测试。 测试结果发生偏差时自动告警,以便及时定位和处理。 父主题:
服务。 RabbitMQ集群提供镜像队列,通过镜像在其他节点同步数据。单节点宕机时,仍可通过唯一的访问地址对外提供服务。 RocketMQ使用一主两备架构,备节点通过数据同步的方式保持数据一致。当节点故障时,通过Raft协议自动切换主备关系,保持数据强一致性。 跨AZ容灾 Kaf
常见故障模式 云数据库 TaurusDB的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高 检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启自动扩缩容,以便在过载时自动扩容规格和/或只读节点。
主动通知数据主体 主动通知数据主体是指数据控制者主动向数据主体(个人)提供信息,告知其数据处理活动的相关信息,例如数据收集的目的、数据处理的方式、数据使用的范围、数据存储的期限等。这种通知通常以隐私政策、用户协议、提示信息等形式呈现。 风险等级 中 关键策略 主动通知数据主体的重要性在于: