检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
过监控实例内的内存占用率,在超过阈值的情况下及时告警,人工介入迅速恢复,可避免造成业务中断。 典型的亚健康场景有:通信链路丢包/错包、硬盘性能下降、CPU/内存过载等,当应用系统内组件出现亚健康时,可能会导致应用系统对外业务成功率下降。 由于亚健康并非故障,因此针对亚健康的检测一
题。 为了保证测试的有效性,测试环境需要与生产环境保持一致。 华为云提供了MAS-CAST故障注入服务、CodeArts PerfTest性能测试服务、MAS多活高可用服务,可用于故障注入测试、压力负荷测试、长稳测试以及灾难演练。 RES11-01 混沌测试 RES11-02 压力负载测试
应用业务规则以实现高回报。 相关服务和工具 为提高成本效率,华为云根据您过去的使用情况,为您提供多项计费模式的优化建议,帮助您在不改变资源性能的情况下,通过调整计费模式来节省成本。您可以重点关注高节省低风险的节省建议(“预计月度节省”高且“盈亏平衡时间”短) 按需转包年包月成本优
提供跨区域、跨服务的集中标签管理和资源分类功能。 优化顾问结合华为云最佳实践与用户的配置和使用情况进行分析,为客户提供包括可靠性、安全、性能、成本等维度的自助检查与优化建议,从而帮助客户实现高效运营与成本节约。 父主题: 成本优化支柱
迟。 进行变更评估和风险管理:评估变更影响范围,识别潜在风险和冲突,并采取相应的措施进行风险管理。 自动化测试和验证:验证变更的正确性以及性能、可靠性影响,减少人工测试的错误和延迟。 监控和审计变更过程:追踪和记录变更执行情况,及时发现和解决问题,提供透明度和可追溯性。 相关云服务和工具
践 OPS03 你是否有完备的测试验证体系? 1. 推行开发者测试 2. 使用多个环境进行集成测试,构建和生产环境相同的预生产环境 3. 性能压测 4. 生产环境拔测 5. 混沌测试和演练 OPS04 自动化构建和部署流程是否完备? 1. 有效落地持续集成 2. 采用持续部署模型
、快速恢复等确定性恢复能力。 验证高可用设计:业务系统在规划设计阶段进行架构高可用设计、监控设计,在上线前进行生产准备度评审 (PRR)、性能压测,确保系统能够持续提供稳定、可靠的服务。混沌工程从应用部署架构、服务容量、监控告警、应用高可用等多维度设计演练场景,先测试、后攻防、再
动恢复”。 当检测到弹性云服务所在的硬件出现亚健康时,系统会自动化将弹性云服务器热迁移到其他物理服务器上继续运行,迁移过程中会导致业务处理性能下降,业务中断时间小于1s。 反亲和 通过云服务器组,支持创建ECS实例时尽量分散在不同主机上以提高业务的可靠性。详见“管理云服务器组”。
白皮书的其他最近章节详述。 设计建议: 相关云服务和工具 云运维中心 COC 华为云AOM服务 云监控服务 CES 华为云LTS服务 应用性能管理 APM 父主题: OPS01 建立持续改进的团队文化和标准化的运维体系
全生命周期风险管理:覆盖部署态和运行态两部分的风险治理,贯穿应用和资源全生命周期,将华为云多年沉淀的动态清零风险管理经验使能用户。 使能主动运维:通过性能压测、应急演练/混沌工程、韧性评估等主动运维手段提升客户关键业务的质量和韧性。 丰富的故障演练武器:沉淀华为云实践经验,内置50个+演练攻
而且方便使用上一版本的源代码回滚到上一版本的应用。 其次,在软件开发生命周期内,推动开发人员采用代码质量最佳实践,例如,使用代码审查或结对编程等最佳实践来提高代码质量,确保每行代码在合入代码仓时,都有两个以上的工程师审查过,同时,通过设置代码合入策略进行代码控制,确保代码审查规范
由于爆炸半径大,需要足够轻,足够简单,但是不能太简单。 某些情况,要考虑避免路由所有调用,有助于减少延迟,并减小路由层的规模。 支持横向扩展,避免路由层成为性能瓶颈。 提供Grid迁移功能,以便在增加/删除Grid业务单元时,可以快速调整分区键对应的Grid业务单元。典型处理过程如下: 从分区键对应的旧位置拷贝数据到新位置。
正确性。功能检测可以使用传统日志跟踪技术、调用链技术来进行检测,如华为云APM。 业务检测:模拟用户的业务操作过程,获得完成业务的操作过程性能数据和操作结果数据;业务检测使用拨测技术来完成检测,由于拨测需要占用网络资源,对于长周期拨测,一般选择在空闲时间段进行,属于抽样检测,而如
态应用可采用ECS或CCE(以CCE为例),通过ELB负载均衡;后端数据库基于不同业务类型可采用不同数据库,通常采用GaussDB提供更高性能与可靠性;基于业务需要,通常还会使用DCS、Kafka等中间件及DDS文档数据库;为满足对应的可用性目标,建议方案如下: 类别 实施方案 冗余
全量云资源的资产清单,给资源打上标签,从而在出现安全事件时,能快速定位到有安全风险的资源。 风险等级 高 关键策略 设计态与运行态一致性:对照设计态的架构图、架构文档实施云服务资源。工作负载运行时的架构始终保持与设计态一致。 自动化资产盘点:使用安全云服务或工具来自动发现和记录云
后台应用集群+后端数据库集群,其中前端无状态应用可采用ECS或CCE(以CCE为例),后端数据库通常采用RDS for MySQL提供更高性能与可靠性;为满足对应的可用性目标,建议方案如下: 类别 实施方案 冗余 ELB、CCE、DCS、Kafka、RDS、DDS等云服务实例均高可用部署。
可以自动在其他物理服务器上重启;对于部署在这种ECS中的工作负载,需要支持虚拟机重启后业务自动恢复的功能,并能容忍虚拟机HA期间业务处理性能短暂下降或中断。 对已部署的应用系统,改造为支持高可用能力的实施步骤: 确定应用系统的关键组件;所谓关键组件是指一旦故障,会导致整个应用系统或其中的关键功能受损。
对于构建在云上的应用,通过可观测性,可以快速发现和解决系统故障,从而提高系统从故障中的恢复速度。进一步地,可以提前发现系统的问题,例如性能,容量瓶颈,提前解决问题。更进一步地,您可以通过联动可观测性带来的告警和上文中的自动化流程,通过主动式响应,包括动态缩扩容,流控,主动切流,节点的迁移等,消灭问题于无形之间。
SEC01-05 实施威胁建模分析 威胁建模是一种系统性的方法,用于识别和评估可能对系统或组织造成威胁的潜在威胁源、攻击路径和攻击手段。通过识别威胁理解系统的安全风险,发现系统设计中的安全问题,制定消减措施,降低系统风险,提升系统安全性和韧性。 风险等级 高 关键策略 以下是系统运行期间的威胁模型:
力最大化。 及早控制:系统过载时,应尽可能在业务流程处理前端或业务处理较早的处理模块或底层协议层次上控制业务接入,避免中间控制带来不必要的性能消耗。 优先级保障:系统过载时保证高优先级的业务能够优先获得资源,优先得到处理,从而保证社会效益最大化。 变更防差错 当对系统进行升级部署