检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
业项目设置拥有不同权限的用户组和用户。 标签管理TMS是一种快速便捷将标签集中管理的可视化服务,提供跨区域、跨服务的集中标签管理和资源分类功能。 优化顾问结合华为云最佳实践与用户的配置和使用情况进行分析,为客户提供包括可靠性、安全、性能、成本等维度的自助检查与优化建议,从而帮助客户实现高效运营与成本节约。
全生命周期性能管理 全生命周期性能管理围绕需求、设计、开发、测试与编护完整的软件生周期展开,将性能活动内化到生命周期流程中,实现性能工作的常态化。 PERF01-01 全生命周期性能管理 父主题: PERF01 流程与规范
要构建针对各种偶发故障下的恢复能力,如: 由于硬件故障导致的高可用切换或跨AZ切换过程中,导致瞬时链接中断,需要应用系统具备链接中断重试的功能。 由于外部流量突发导致业务过载,需要应用系统具备流量控制的能力。 部分强依赖于硬件的负载,如依赖本地硬盘、GPU等,由于硬件故障导致服务
动隔离异常节点,虽然业务会在正常节点上分担,但应用系统实际已损失了部分处理容量。因此,云服务状态监控必不可少。 云服务具体指标因功能特性而异。站在功能提供者的层面,通常同样需要重点关注延迟、流量、错误率、利用率等指标。此外,服务实例的动态伸缩、过负荷控制、故障自愈或迁移等可靠性关
组织级参考架构 华为云提供了Landing Zone解决方案帮助企业客户在云上构建架构卓越、安全合规、易扩展的多账号运行环境,首要环节是规划组织和账号架构。按照康威定律,企业在华为云上的组织和账号架构要与企业的组织和业务架构总体保持一致,但也不要完全照搬复制。华为云提供以下参考架
卓越运营支柱 卓越运营支柱简介 基础概念 设计原则 问题和检查项 OPS01 建立持续改进的团队文化和标准化的运维体系 OPS02 通过CI/CD实现高效的频繁可逆的小规模变更 OPS03 完备的测试验证体系 OPS04 自动化构建和部署流程 OPS05 运维准备和变更管理 OPS06
故障快速恢复 当应用系统采用华为云服务的高可用设计时,在云服务实例发生故障后,云服务能自动检测和恢复;但对于应用系统本身的故障,需要应用系统自身进行检测和快速恢复处理,以保证系统能够正常运行,从而提高系统的可靠性和稳定性。 RES08 依赖减少与降级 RES09 故障重试 RES10
理。 BMS实例不可用或运行异常 检测:配置ELB弹性负载均衡器的后端服务器健康检查,以便定期检查后端服务器的运行状态。健康检查应检查关键功能是否能正确响应。 恢复:针对每个应用层,配置多个BMS实例,通过ELB弹性负载均衡器进行健康检查,当检测到某个BMS实例不可用时,ELB弹性负载均衡器停止向该实例发送业务请求。
风险等级 中 关键策略 制定检视计划: 确定检视的频率和时间安排,以确保代码检视是持续的活动。 确定检视范围,例如可以是每次提交、每个功能完成后,或者定期的大规模检视。 培训团队成员: 提供培训以确保团队成员了解如何进行有效的代码检视。 确保团队了解代码检视的目的和重要性,以
理。 ECS实例不可用或运行异常 检测:配置ELB弹性负载均衡器的后端服务器健康检查,以便定期检查后端服务器的运行状态。健康检查应检查关键功能是否能正确响应。 恢复:针对每个应用层,配置多个ECS实例,通过ELB弹性负载均衡器进行健康检查,当检测到某个ECS实例不可用时,ELB弹性负载均衡器停止向该实例发送业务请求。
基础概念 名称 名词解释 确定性运维 确定性运维旨在构建可防、可控、可治的运维管理体系。首先是通过高质量的产品开发,严谨的运维流程和制度来降低故障的概率,要挑战零故障,同时也要有技术手段对可能发生的故障,将间隔、影响范围及故障恢复时间做到可防、可控、可治,要把数字化带来的“不确定性”通过运维变成“确定性”。
权限。 风险等级 高 关键策略 按照IT工作职能划分用户组,将用户加入到与其匹配的用户组中。用户组是IAM用户的集合,IAM可以通过用户组功能实现用户的授权。 优先基于用户组授权,而不是基于用户授权。 “admin”为系统缺省提供的管理员用户组,具有所有云服务资源的操作权限。避免将所有用户都加入admin用户组。
全面性检查:确保基线检查覆盖所有关键的云服务配置项,包括身份认证、访问控制、网络安全等关键配置。 定期与实时检查:设置定期自动检查计划,并提供实时检查功能,以便在需要时立即评估云服务的安全状态。 风险评估:对检查结果进行风险评估,识别不同级别的风险资源,如致命、高危、中危、低危和提示。 相关云服务和工具
快切换到正常路径。 公有云组网场景可通过多EIP 弹性IP及DNS域名解析实现网络连接的高可用;对可用性要求较高的场景,需要支持智能DNS功能,能对EIP进行异常监控和自动切换;此外DNS自身也需要冗余容错,避免由于DNS故障而导致域名解析失败,业务中断。 混合云组网场景链路冗余与倒换方案:
RES10-04 健康检查与自动隔离 对应用组件进行健康检查,当发现故障后进行主动隔离,避免故障扩散。 风险等级 高 关键策略 对系统内组件需要定期进行健康检查,以判断其状态是否正常。 对于异常组件,需要能支持自动隔离,避免对整体业务造成影响。 相关云服务和工具 弹性负载均衡器
RES13 过载保护 当系统流量超过一定阈值后,导致系统处于过载状态时,可能会导致部分请求失败,失败触发业务重试,会进一步增加系统的负荷,形成恶性循环,导致业务成功率远远低于系统的设计容量,甚至整体不可用。因此应用应该设计过载保护机制,使得在过载状态下依然可以保证一定比例设计容量的处理能力。
流量,以避免系统组件受到来自不可信网络的非授权访问。 使用应用负载均衡时,七层负载均衡更换为安全的证书。 启用VPC流量日志。VPC流日志功能可以记录虚拟私有云中的流量信息,帮助用户优化安全组和防火墙控制规则、监控网络流量、进行网络攻击分析等。关于安全日志更多见:SEC09-01
SEC10-02 制定事件响应计划 事件响应计划(Incident Response Plan, IRP)是组织安全策略的重要组成部分,它旨在确保在安全事件发生时,能够迅速、有序地采取行动,最大限度地减少损失,并尽快恢复正常运营。 风险等级 高 关键策略 建立事件响应计划,包括定
问题和检查项 问题 检查项/最佳实践 SEC01 如何整体考虑云安全治理策略? 建立安全管理队 建立安全基线 梳理资产清单 分隔工作负载 实施威胁建模分析 识别并验证安全措施 SEC02 如何管理人机接口和机机接口的身份认证? 对账号进行保护 安全的登录机制 安全管理及使用凭证 一体化身份管理
性能效率支柱简介 如何设计出高性能的架构是一个普遍性的问题。作为基本的质量属性,性能的重要性和性能失败后果的严重性是毋庸置疑的,实际上公司内外都有很多性能失败的例子。本文试图为性能设计、性能优化提供一些技术方法和手段,这些方法手段可以用于系统的软件性能工程建设,也可用于指导性能调整和优化。