检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可靠性功能 数据持久性 OBS通过存储介质的慢盘/坏道检测、AZ内设备和数据冗余、AZ之间数据容灾、跨区域复制等技术方案,提供针对介质、服务器、机柜、数据中心和区域的多级可靠性保障。
可靠性功能 集群HA Kafka实例通过副本冗余方式实现实例容灾,当检测到leader副本故障后,快速完成副本选主,保障Kafka实例持续提供服务。 RabbitMQ集群提供镜像队列,通过镜像在其他节点同步数据。单节点宕机时,仍可通过唯一的访问地址对外提供服务。
RDS服务最多支持5个只读副本,可在线扩展只读负载;一键规格变更实现CPU、内存扩容/缩容;在线存储容量扩容。 CCE服务支持配置自动扩容集群节点和工作负载,伸缩策略支持告警(按CPU或内存使用率触发)、定时、周期多种方式。
使用Serverless架构的云服务,将计算资源的安全交给华为云处理,减免了用户自行运维服务器带来的工作量和人为错误,减少了安全漏洞的风险。这样,用户能够将更多精力集中在业务逻辑和应用的安全性上。
高级分析专家:漏洞分析及复现,恶意样本逆向分析,输出病毒查杀脚本。 服务安全响应专家:协助安全响应人员对事件进行调查分析,配合执行各类日志取证,提供业务架构、网络架构、业务日志等协助分析攻击源头,影响范围。实施应急处置措施,并覆盖安全产品。 父主题: SEC10 安全事件响应
OBS桶内数据被误删 检测:NA 恢复:针对OBS桶启用多版本控制,在数据被删除时使用历史版本快速恢复。 父主题: OBS对象存储服务
连接后端云数据库 TaurusDB失败 检测:连接失败。 恢复: 应用层进行重试,以应对暂时性故障,如云数据库 TaurusDB实例正在进行主备切换时;应用故障重试处理可参考“故障重试”。
故障全面检测 故障检测是故障管理的前提,检测全面与检测快速都很重要,通常情况下故障检测全比故障检测快重要。 故障检测涉及以下方面: 检测范围:识别并跟踪检测所有组件,有重大影响的故障模式需要重点检测。
告警:应用系统在检测到故障后需要及时告警,并能通过短消息、邮件等方式发送给所有相关人员,确保使相关人第一时间得知故障信息,以便快速组织应急响应。 预测:维护团队需要根据系统运行现状,通过数据分析、机器学习等方式,预测系统的风险情况,提前进行预防和处理。
对于C/C++语言,要考虑缓冲区溢出漏洞、命令注入、危险函数、内存泄露、指针越界、数组读写越界等安全风险。 对于JavaScript语言,要考虑容易受到XSS攻击的安全风险。 父主题: SEC06 应用安全性
避免使用过期证书,以防止安全漏洞和服务中断。 安全存储: 将证书存储在安全的位置,只允许授权人员访问。 对私钥进行额外保护,如使用硬件安全模块(HSM)来存储私钥。 加密传输: 在证书的传输过程中使用加密通道,如SSL/TLS,以防止证书被篡改或窃取。
当对应用程序进行检测,以发布有关这些依赖项的指标、日志和跟踪时,就能更清楚地了解可能影响工作负载的潜在瓶颈、性能问题或故障。 父主题: OPS06 可观测性体系
网络链路快速倒换:需要定期检查网络链路的连通性,但检测到失败时需要尽快切换到正常路径。
更新密钥: 定期更新密钥以应对安全漏洞和攻击。 使用安全的方式进行密钥轮换,确保服务的连续性。 备份与恢复: 定期备份密钥,并将备份存储在安全的地方。 确保有可靠的恢复机制,以防止密钥丢失或损坏。 销毁密钥: 在密钥不再需要时及时销毁密钥。
变更中断:假定应用支持离线更新与在线补丁,每年离线更新4次,每次更新时长30分钟,则每年更新时长为120分钟;在线补丁不影响业务。 按照以上评估,每年应用系统不可用的时长是240分钟,满足可用设计目标要求。
故障快速恢复 当应用系统采用华为云服务的高可用设计时,在云服务实例发生故障后,云服务能自动检测和恢复;但对于应用系统本身的故障,需要应用系统自身进行检测和快速恢复处理,以保证系统能够正常运行,从而提高系统的可靠性和稳定性。
网络连接高可用 避免暴露不必要的网络地址 不同流量模型业务的网络共享带宽隔离 预留IP资源以便扩展和高可用 RES06您如何进行故障检测处理? 故障模式分析 面向所有故障进行检测 支持亚健康检测 RES07 您如何监控应用系统资源?
确保团队了解代码检视的目的和重要性,以及如何识别常见问题和潜在的安全漏洞,建议将常犯的TOP问题整理成清单,在开发人员编写代码后自检以及他人检视时进行对照。 选择合适的工具: 使用代码检视工具来辅助检视过程,例如静态代码分析工具,以帮助发现潜在的问题。
韧性支柱 韧性支柱简介 基本概念 设计原则 问题和检查项 高可用设计 故障全面检测 故障快速恢复 过载控制 变更防差错 参考架构 云服务可靠性介绍
客户责任:客户可以从华为云选择合适的产品并进行可靠性配置以符合应用韧性目标,并参考本白皮书中的设计原则与最佳实践,充分考虑各种异常场景的检测和恢复能力,来构建高可用应用系统。 父主题: 基本概念