检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果消费者数量较多并且消息处理速度较慢,那么建议 QoS 设置为 1,让消息平均的分发到所有消费者。 请注意,如果客户端使用拉模式或者开启了自动确认(auto-ack),预拉取功能将会失效。一个常见的错误是不限制预拉取消息个数,所有消息全部发送给一个消费者,造成消费者 OOM 崩溃和消息重复投递。更多关于
高 关键策略 由于系统的独特性和复杂性,没有放之四海皆准的方案,为了达到卓越运营,需要不断改进这些最佳实践,并建立自己的最佳实践。所以,在所有最佳实践的第一条,就是在您的团队中培养持续学习和改进的文化。 而持续学习和改进需要鼓励团队沟通和共享,例如,在您公司/组织中总结的最佳实践
可用性需求 根据“常见IT系统SLO示意”中的表格可以得知,不同的IT系统,SLO目标是存在差异的,不是所有的应用系统都需要达到最高可用性要求。 当系统可用性目标要求升高时,所需的成本也通常会增加,因此在可用性目标制定时,需要对韧性与成本进行权衡,确定真正的可用性需求。 在系统的
SEC04-02 控制网络流量的访问 控制网络流量以确保网络分区之间的流量是可预期的、允许的。依据零信任原则,需在网络级别验证所有的流量出入。确保网络设备的业务能力、网络每个部分的带宽满足业务高峰期的需要。 风险等级 高 关键策略 在设计网络拓扑时,仔细检查每个组件的连接要求,例
SEC07-01 识别工作负载内的数据 通过业务流程、数据流动方向、数据分布、数据的所有者等维度,对照合规要求评估数据的敏感度,对数据分级分类。 风险等级 高 关键策略 遵循以下步骤梳理、识别数据: 业务流程分析。 了解业务流程,对照业务流程图,明确在各个环节中产生、处理和存储的数据类型和用途。
及。 风险等级 高 关键策略 面向有状态主备类型业务提供容灾仲裁,站点间链路中断不双主,不破坏数据完整性。 应用内所有相关组件对接一致性仲裁,在链路中断的情况下所有组件均能切换到同一个站点,实现端到端的业务可用性 父主题: RES03 跨AZ容灾
可靠性功能 数据备份和恢复 使用CBR云备份服务可对BMS的所有云硬盘(系统盘和数据盘)进行备份,支持基于多云硬盘一致性快照技术的备份服务,并支持利用备份数据恢复裸金属服务器数据,最大限度保障用户数据的安全性和正确性,确保业务安全。详见“备份裸金属服务器”。 集群HA 配合共享云
每次回顾和审核时,持续改进流程,例如,通过降低测试和变更的成本从而提升整体的优化频率。最后,在云厂商新的服务、资源类型和配置推出后,也可以启动流程,对它们进行评估,以优化您的工作负载成本。 父主题: COST05 优化指定策略和目标
避免IAM自定义策略中包含“*:*”管理权限。 如果使用了企业项目,优先在企业项目中对用户组进行授权。如果需要针对账号内所有区域或特定区域内的所有资源进行统一授权,如将账号内所有企业项目的所有资源的访问权限授予统一资源管理组,则可以使用IAM项目进行授权,避免在各个企业项目中逐一授权,简化授权操作。
2.创建测试方案 创建测试方案是指设计适合性能测试系统负载的特定场景或条件的过程,性能测试方案设计要求全面、无遗漏,使用测试设计模板把所有的组网场景要求全覆盖,根据性能测试需求、测试模型、测试组网图,罗列出业务测试要点,逐一去分解测试场景和步骤。创建测试方案以模拟真实的用户行为和系统负载,
确定性故障管理 统一事件中心:提供事件发现、事件处理、恢复验证及持续改进的全流程标准化机制。 承载Warroom和故障回溯能力:现网事件智能启动Warroom,缩短故障处理非必要耗时,指挥中心实时观测故障处理进展。故障回溯实现问题总结和经验沉淀,客户问题不重犯,缩短故障恢复MTTR。
而预生产环境使用与生产环境相同的部署配置、安全控制、步骤和程序,在预生产环境中测试发布过程。验证所有部署步骤是否按预期完成,如检查依数据、配置和服务。通过集成功能测试,和各种非功能测试以及运行状况检查等各种监控方法,进一步测试所有更改。 父主题: OPS03 完备的测试验证体系
对数据操作实施监控 相关云服务和工具 云审计服务 CTS:用户开通CTS后,系统会自动创建一个追踪器,该追踪器会自动识别并关联当前租户所使用的所有云服务,并将当前租户的所有操作记录在该追踪器中。CTS服务具备对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。
RES06 故障检测 RES06-01 故障模式分析 RES06-02 面向所有故障进行检测 RES06-03 支持亚健康检测 父主题: 故障全面检测
实施快速安全响应动作,隔离受影响的系统或账户、断开网络连接、停止服务、清除恶意文件、修复漏洞、替换受损系统并加固系统,确认所有威胁已经被完全清除,避免再次发生。 制定恢复策略,逐步恢复受影响服务,确保数据和系统一致性,进行测试确保所有系统恢复正常运作。 进行事件后分析,总结事件的起因、响应过程和教训。更新事件响应计划,根据经验教训进行改进。
进行部署,同时监控更改以便发现错误,直到所有部署完成。 蓝绿部署与金丝雀部署类似,只是会并行部署一整套应用程序,形成两套生产环境:蓝环境和绿环境,蓝色是当前版本并拥有实时流量,绿色是包含更新代码的环境。当应用程序已经准备就绪,用户可以将所有流量都将路由到绿环境中,当出现问题时,可
高可用性系统必须具有完善的故障检测能力,以确保能够快速发现那些可能导致故障的事件、显示正在发展的故障、激活的故障,以及潜在的故障的事件。在几乎所有情况下,故障检测能力都是故障恢复的前提。 RES06 故障检测 RES07 监控告警 父主题: 韧性支柱
量最小化。 避免暴露多余的公网IP,同时不应对外开放或未最小化开放高危端口、远程管理端口。 安全组仅开放业务所需的网段及端口,禁止设置成对所有IP(0.0.0.0/0)都可访问。 相关云服务和工具 虚拟私有云 VPC NAT网关 NAT 安全云脑 SecMaster:云服务基线核查
PERF02 性能规划 性能规划 父主题: 性能效率支柱
PERF03 性能建模 选择合适的计算资源 选择合适网络服务资源 选择合适的存储云服务 选择合适的应用中间件云服务资源 选择合适的数据库资源 父主题: 性能效率支柱