检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES05-04 预留IP资源以便扩展及高可用 云上网络需要满足可扩展以及高可用需求,以便在云上资源弹性伸缩或业务扩展时,有足够网络资源支撑业务发展。 风险等级 高 关键策略 云上网络规划设计应满足以下原则: 针对每个Region,根据业务需要规划不同的VPC,每个VPC使用独立
RES15-01 自动化部署和升级 部署和升级过程由代码实现,以固化部件间依赖、安装和配置过程,减少人工错误。 风险等级 高 关键策略 部署和升级过程自动化完成。 父主题: RES15 升级不中断业务
PERF04-02 选择合适的测试方式 风险等级 高 关键策略 性能测试的常见方式如下,需要注意的是,各种测试方式并不是正交的,而是有耦合关系的: 性能验收:性能验收测试的运行环境必须是确定的,验证系统在确定的场景条件下是否达到了其宣称的能力规格。 负载测试:是在被测系统上进行负
OPS03-05 进行混沌测试和演练 混沌工程(Chaos Engineering)是通过故障注入,验证故障快速恢复能力及系统可靠性的实践活动。 风险等级 高 关键策略 通过混沌工程的方法模拟可能出现的故障,进而综合验证系统在不同故障场景下的容错能力、监控能力、应急响应能力、定界定位、快速恢复等确定性恢复能力。
OPS04-01 有效落地持续集成 风险等级 高 关键策略 持续集成是一种软件开发实践,开发人员使用它定期将软件更新集成到源代码控制系统中。当工程师向代码仓提交代码时,持续集成过程就开始了。理想情况下,集成过程会根据多个基线和测试来验证代码。然后,它向提交者提供有关这些测试状态的
RES09-02 客户端需要根据综合评估是否要重试 当客户端请求超时或收到错误响应时,客户端需要决定是否重试;重试有助于客户端在请求失败时,通过重复消息来获得预期的结果,避免业务失败,但也会消耗更多的服务器时间来获取所需的成功响应。 风险等级 高 关键策略 请求超时,可能是链路闪
COST07-04 合理降配低负载资源或升配高负载资源 风险等级 中 关键策略 根据工作负载和资源特征选择合适的资源大小或类型。您可通过持续监控资源利用率,发现资源的利用率低于/高于阈值,选择降配或者升配资源来优化成本。 父主题: COST07 管理和优化资源
RES05-02 避免暴露不必要的网络地址 网络地址对外暴露时,可能会引入安全风险,需要避免暴露不必要的网络地址。 风险等级 高 关键策略 通常对外网络地址需要尽可能集中管控,避免分散暴露,如使用网络服务ELB弹性负载均衡、公网NAT网关、Web云防火墙等作为公网访问入口。 对外
SEC02-04 一体化身份管理 在公司范围内构建统一的身份管理系统,统一管理私有云和公有云、公有云上多个账号的用户身份。 风险等级 中 关键策略 在公司范围内构建统一身份管理系统,集中存储用户身份信息。 统一身份管理系统与私有云、公有云平台的IAM系统进行身份联邦,统一身份管理
SEC02-03 网络访问权限最小化 确保只有必要的人员或组件可以访问特定的网络资源。 风险等级 高 关键策略 通过配置安全组和网络访问控制列表(ACL),控制进出云资源的网络流量,确保只有授权的流量能够访问特定的服务和端口。根据业务实际情况优化每个网络区域的ACL,并保证访问控制规则数量最小化。
RES08-03 减少被依赖项故障的影响 被依赖项自身的可用性需要增强,以减少对依赖它的组件的影响。 风险等级 中 关键策略 对于被依赖项本身,为减少由于服务故障或运行缓慢对依赖它的组件的影响,需要考虑使用以下技术和原则: 减少被依赖项本身的外部依赖。 优化性能,减少消息响应时延和负载。
OPS06-07 通过可观测性指标引入自动化措施 风险等级 高 关键策略 可观测与自动化运维工具联动,实现自动化的故障检测、恢复及弹性伸缩等功能,进一步提升运维响应速度和准确性,降低人为干预带来的延误,甚至错误。 父主题: OPS06 可观测性体系
COST01-02 规划IT治理体系,提高管理效率 风险等级 高 关键策略 实施与您的组织对应的IT治理结构。这有助于在整个组织内分摊和管理成本。随着经营范围和规模的不断扩张,不断建立子公司、分公司,大部门也逐步拆分成多个小部门,组织结构的层级也就越来越多。企业的IT治理架构也会
SEC01-06 识别并验证安全措施 根据团队制定的安全基线以及威胁建模分析的结果,对工作负载中涉及的安全措施进行验证,以确保它们按照预期方式运行并有效地保护系统,从而缓解或消除安全威胁。 风险等级 高 关键策略 依据系统的安全设计文档,通过验证确保安全措施被正确地集成到系统中,并符合最佳实践和标准。
PERF03-09 选择合适的RabbitMQ 风险等级 中 关键策略 版本选择:RabbitMQ服务版本随时间更迭,选择版本时需注意查看不同版本状态与区分,详情可参考官方公告。 规格选择:RabbitMQ服务提供了不同规格实例可供选择,建议按照业务需求对比,选择合适的规格型号,具体实例规格请参考官方文档。
PERF03-01 选择合适类型的计算云服务 风险等级 中 关键策略 根据应用的特征选择合适的计算云服务。选择计算云服务主要考虑以下两个因素: 应用本身的部署形态 上云时,业务的迁移方式(例如:业务是简单的迁移上云,还是本身要做改造) 如果业务本身在IDC部署模式是虚拟机部署,应
OPS05-01 进行生产准备度评审(Product Readiness Review) 风险等级 高 关键策略 Production Readiness Review 生产准备度评估基线:从SLI/SLO、可冗余、可容灾、可过载控制、可故障管理、可变更能力、可运维、安全生产等维
PERF03-07 选择合适的Kafka 风险等级 中 关键策略 根据生产流量、消费流量、老化时间、副本数等指标,计算业务所需的规格,选择合适的Kafka规格。 规格测算: 性能容量维度所需最小节点数 = max((存储带宽需求 / 单节点存储带宽),(网络带宽需求 / 单节点网络基准带宽))
PERF03-08 选择合适的RocketMQ 风险等级 中 关键策略 RocketMQ服务提供了多个维度定义规格,如资源规格、代理个数、存储容量、单个代理TPS、单个代理Topic数上限、单个代理消费组数上限等,建议根据不同版本涉及的具体规格情况选择合适的RocketMQ服务。
OPS01-01 建立持续学习和改进的文化 风险等级 高 关键策略 由于系统的独特性和复杂性,没有放之四海皆准的方案,为了达到卓越运营,需要不断改进这些最佳实践,并建立自己的最佳实践。所以,在所有最佳实践的第一条,就是在您的团队中培养持续学习和改进的文化。 而持续学习和改进需要鼓