检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
常见故障模式 RDS的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高 检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启存储空间自动扩容,以便在磁盘容量不足时自动扩容。 应用层进行过载保护
RES11-03 长稳测试 基于用户使用场景构建业务模型,自动化构建覆盖系统容量规格70%的业务量,持续7*24小时进行长时间负载测试以评估系统稳定性。 风险等级 高 关键策略 模拟各种业务场景进行测试。 持续自动测试。 测试结果发生偏差时自动告警,以便及时定位和处理。 父主题:
可靠性功能 集群HA Kafka实例通过副本冗余方式实现实例容灾,当检测到leader副本故障后,快速完成副本选主,保障Kafka实例持续提供服务。 RabbitMQ集群提供镜像队列,通过镜像在其他节点同步数据。单节点宕机时,仍可通过唯一的访问地址对外提供服务。 RocketMQ使用一主两备架构
OPS07-01 创建可操作的告警 风险等级 高 关键策略 收到告警时,一般需要做出响应,消除无须响应的告警。 比如磁盘IO 量瞬间飙升,CPU 使用率瞬间飙高,这类告警无需做出响应,对业务而言,意义就不大了。 遵循可操作性原则能避免很多误报。并且要定期统计和分析告警频率,识别高频告警
RES05-04 预留IP资源以便扩展及高可用 云上网络需要满足可扩展以及高可用需求,以便在云上资源弹性伸缩或业务扩展时,有足够网络资源支撑业务发展。 风险等级 高 关键策略 云上网络规划设计应满足以下原则: 针对每个Region,根据业务需要规划不同的VPC,每个VPC使用独立的地址空间
常见故障模式 BMS的CPU /内存/磁盘容量/磁盘IOPS使用率过高 检测:通过CES监控CPU/内存/磁盘容量/磁盘IOPS使用率 恢复: 根据业务情况,更换规格更高的BMS实例或增加BMS实例进行负荷分担。 应用层进行过载保护,保障优先业务的运行。 连接后端BMS失败 检测:
常见故障模式 DCS的CPU /内存/带宽/连接数使用率过高 检测:通过CES监控CPU /内存/带宽/连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 应用层进行过载保护,保障优先业务的运行,如将部分性能要求不高的业务切回到原始数据源。 连接后端DCS失败 检测:连接失败
常见故障模式 GaussDB(for MySQL)的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高 检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启自动扩缩容,以便在过载时自动扩容规格和
SEC02-01 对账号进行保护 账号是华为云租户的账号体系中权限最高的用户,拥有对整个云环境的最高权限。一旦账号受到攻击或泄露,可能导致严重的安全问题和数据泄露。因此,身份认证的安全性首先要考虑对此账号进行保护。 风险等级 高 关键策略 强密码:使用强密码来保护账号,包括数字、字母
SEC08-02 主动通知数据主体 主动通知数据主体是指数据控制者主动向数据主体(个人)提供信息,告知其数据处理活动的相关信息,例如数据收集的目的、数据处理的方式、数据使用的范围、数据存储的期限等。这种通知通常以隐私政策、用户协议、提示信息等形式呈现。 风险等级 中 关键策略 主动通知数据主体的重要性在于
设计原则 组织,流程和成本管理相匹配 在成本优化过程中,一个很重要的原则是需要将组织结构,流程和成本管理相匹配。需要建立“责权分明”的体系,否则即使用再好的成本优化工具,也无法将成本优化落到实处。 流程上,需要把成本管理作为各个上云流程中必备的一环; 组织上,需要投入适当的时间,资源和人力用于建立云财务管理的能力
COST01-01 规划企业组织,将组织结构,流程和成本管理相匹配 风险等级 高 关键策略 在成本优化过程中,一个很重要的原则是需要将组织结构,流程和成本管理相匹配。需要建立“责权分明”的体系,否则即使用再好的成本优化工具,也无法将成本优化落到实处。一个比较好的实践是在初始的时候,
基于LTS采集多类端侧日志,问题全链路追踪分析和业务运营分析 某公司核心业务专注于IT信息传播、技术交流、教育培训和专业技术人才服务。拥有超过3200万注册会员、超过1000家企业客户及合作伙伴。 客户痛点: 端侧采集工具不统一,不支持自定义域名上报,问题定位复杂 Web、IOS、
COST01-03 明确团队责任,建立和维护成本意识文化 风险等级 中 关键策略 成本优化的流程中落实成本意识、都需要明确团队责任。一种比较好的实践是使用一组明确定义的 KPI 指标,提供团队级别的报告,实现成本透明度和成本问责制,这些指标可以包含收益/成本比率,单位商品成本,核心资源利用率等等
RES03-01 集群跨AZ部署 应用内所有组件均采用跨AZ容灾部署,以避免单AZ故障时业务中断。 风险等级 高 关键策略 云服务实例具备跨AZ高可用实例时,优先使用云服务实例自身的跨AZ高可用实例。 云服务实例只支持发放单AZ实例,不支持跨AZ高可用实例时,需要借助其他云服务或应用层实现跨
RES13-05 资源自动扩容考虑了配额限制 当应用系统在资源不足自动扩容时,需要考虑配额的限制,若配额不足,会导致自动扩容失败。 风险等级 高 关键策略 华为云为防止资源滥用,限定了各服务资源的配额,对用户的资源数量和容量做了限制。如您最多可以创建多少台弹性云服务器、多少块云硬盘
RES02-03 定期进行备份数据恢复 通过定期恢复测试,可以验证备份数据的完整性与恢复处理过程是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 定期执行备份数据恢复,以验证备份的完整性。 为了避免备份恢复对生产业务造成影响,可以构建一个测试环境
OPS04-01 有效落地持续集成 风险等级 高 关键策略 持续集成是一种软件开发实践,开发人员使用它定期将软件更新集成到源代码控制系统中。当工程师向代码仓提交代码时,持续集成过程就开始了。理想情况下,集成过程会根据多个基线和测试来验证代码。然后,它向提交者提供有关这些测试状态的反馈
安全性支柱简介 华为将安全及隐私保护作为公司的最高纲领。安全性支柱旨在确保业务的安全、可信、合规,通过一系列华为云架构的最佳实践保护工作负载免受各种安全威胁,降低安全风险。安全性支柱涉及保护云上系统、资产、数据的机密性、完整性、可用性以及合法、合规使用数据,保护用户隐私的一系列最佳实践
PERF04-06 建立性能可观测性体系 风险等级 中 关键策略 可观测性体系是指在云原生架构中通过使用各种工具和技术来实现对应用程序和基础设施的监控告警、日志、故障排除等功能的一套完整的解决方案。性能可观测体系在此基础上突出了性能指标,通过收集和分析性能数据,可以识别系统瓶颈、优化资源分配等