检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
有未打标签的资源和标签key&value错误的资源,然后从费用最高的资源开始逐步治理。建议利用云厂商提供的工具或者自建工具,通过自动化规则的方式,在资源创建的时候,就判断标签是否规范。另外一个更好的方式通过权限管理,识别资源创建人和组织,自动为资源打上标签。 定期审查和优化规范:
通过红蓝攻防,可以模拟各种复杂的攻击场景,帮助全面评估应用韧性,及时发现并解决潜在风险。 风险等级 高 关键策略 蓝军从第三方角度发掘各类脆弱点,并向业务所依赖的各种软硬件注入故障,不断验证业务系统的可靠性;而红军则需要按照预先定义的故障响应和应急流程进行处置。 演练结束后,建议针对故障中的发现、响应
自动扩容到最大时的规则不超过配额限制。 在系统中也可配置资源使用超过一定限额后进行预警,避免配额超过限制后导致业务受影响。 相关云服务和工具 使用华为云“我的配额”,可以查询每个云服务不同资源类型的总配额限制和已用配额,可根据业务的需要申请扩大对应云服务指定资源的配额,也可配置配
rm(HCL + Provider)的新一代云服务资源终态编排引擎,在应用编排服务(AOS)基础上实现了生态、体验、特性的全新升级;资源编排服务基于业界开放生态HCL语法模板,实现云服务资源的自动化批量构建,帮助用户高效、安全、一致创建、管理和升级云服务资源,能有效提升资源管理效率,并降低资源管理变更带来的安全风险。
Management,简称APM)帮助运维人员快速发现应用的性能瓶颈,以及故障根源的快速定位,为用户体验保驾护航。 您无需修改代码,只需为应用安装一个APM Agent,就能够对该应用进行全方位监控,帮助您快速定位出错接口和慢接口、重现调用参数、发现系统瓶颈,从而大幅提升线上问题诊断的效率。目前支持JAVA、Python、Node
应用系统多位置部署 通过将应用系统部署在多个位置,可以避免由于一个位置的基础设施故障而导致系统不可用。 风险等级 高 关键策略 将应用系统的数据和资源部署在多个AZ,可避免单个AZ故障影响业务。 对于可用性要求较高的应用系统,可部署在多个Region,避免单个Region故障影响业务。
重试需要避免造成流量压力 对于链路闪断等原因导致的临时性故障,客户端进行一定的重试,可取得较好的效果;对于流量过载等原因导致的故障,重试可能会导致情况进一步恶化,因此需要避免这种影响。 风险等级 高 关键策略 客户端进行重试处理时,建议: 增加指数回退和抖动方法,以避免对服务端造成流量压力;
不方便,可以承受长时间的恢复时间和恢复点;公测类应用用于面向客户的实验性的工作负载,在必要时可以隐藏其功能;针对这些应用,其可用性目标通常要求不高,可达到99%,即每年中断时间可以为3.65天。 导致业务中断的时间包含故障中断时间及由于升级配置维护等导致的中断时间,假定分别中断时间如下:
责任共担模式 云上应用系统的韧性,依赖于云基础设施及应用系统本身的韧性,任何一方故障,都可能会导致云上应用系统故障;因此需要华为云与客户共同承担责任,来保障应用系统的韧性。 华为云责任:华为云提供高可用的基础设施,包括运行华为云服务的硬件、软件和机房设施,并确保服务可用性满足SLA服务等级协议。
基于华为在安全、合规、隐私及数据保护领域积累多年的技术和治理能力,华为云为您提供安全、可靠、可信赖的基础设施和服务。华为云提出“七层防线+一个中心”的网络安全建设框架,通过多重、多方面的安全防线来成体系保障云上业务的安全性。 华为云把安全合规作为首要任务,安全是华为云和您之间的共同责任。在云服务模式下,
可用度及SLO 可用性目标用于衡量应用系统的运行时间和停机时间,其表现形式为应用系统正常运行的时间占总时间(通常是一个月或一年)的百分比(如99.9%),即: 可用度 = 可用时间 / 总时间 * 100% 常见的简单表达方式用“9”的数量或“9”的数量加“5”表示,如“三个9”表示“99
变更防呆检查 防呆是一种预防矫正的行为约束手段,运用防止错误发生的限制方法,让操作者不需要花费注意力、也不需要经验与专业知识,凭借直觉即可准确无误地完成的操作。 风险等级 高 关键策略 通过以下约束和检查,可减少配置差错: 角色约束:通过权限控制设计预防对不同角色的配置范围进行约束,避免越权配置导致错误。
云服务器具备高可靠性和强大的动态迁移能力。当弹性云服务器所在的硬件出现故障时,系统会自动将弹性云服务器迁移至正常的物理机,保障业务受到的影响最小,该过程会导致云服务器重启。详见“物理机故障时,弹性云服务器是否会自动恢复”。 当检测到弹性云服务所在的硬件出现亚健康时,系统会自动化将
有资源的访问权限授予统一资源管理组,则可以使用IAM项目进行授权,避免在各个企业项目中逐一授权,简化授权操作。 相关云服务和工具 统一身份认证服务 IAM 企业项目 EPS 云堡垒机CBH:使用CBH限制对运维账号的使用和访问。CBH可用于集中管控运维账号访问系统和资源的权限,对系统和资源的访问权限进行细粒度设置。
用能力,要实现较高的可用性,仍需要构建针对各种偶发故障下的恢复能力,如: 由于硬件故障导致的高可用切换或跨AZ切换过程中,导致瞬时链接中断,需要应用系统具备链接中断重试的功能。 由于外部流量突发导致业务过载,需要应用系统具备流量控制的能力。 部分强依赖于硬件的负载,如依赖本地硬盘
内部知识管理类应用通常用于内部操作,且在故障时只会对内部员工造成影响,可以承受较长的恢复时间和恢复点,其可用性目标通常要求达到99.9%,即每年中断时间可以为8.76小时。 导致业务中断的时间包含故障中断时间及由于升级配置维护等导致的中断时间,假定分别中断时间如下: 故障中断:假定每年故障中断4次
OPS03-04 对生产环境进行拨测 风险等级 高 关键策略 拨测是利用软件系统以外,甚至现有账号或云Region外的系统,以系统用户使用场景为视角,模拟用户使用场景的测试。和普通的云拔测可实现对网络质量、页面性能、端口性能、文件传输、音视频体验等场景进行周期性监控,支持多维度分析性能指标
关键策略 云上网络规划设计应满足以下原则: 针对每个Region,根据业务需要规划不同的VPC,每个VPC使用独立的地址空间;并需要预留IP地址空间用于新建VPC。 针对每个VPC中,需要根据业务需要规划子网和IP地址空间;并需要预留IP地址空间用于新建子网。 针对每个子网,需要预留IP地址空间用于网络扩容。
用户个人数据转移给第三方前须经过用户同意,符合合法性原则。 转移的目的和范围不能超出收集时所声明的目的和范围。 必须保证个人数据的准确性、完整性和最新状态,保证在任何阶段和环节不能随意篡改、删除、滥用个人数据。 输出者必须获得接收者的明确承诺,保证个人数据的完整性、准确性和安全性,防止滥用及不正当披露。 高影
/S2/S3/S4/S5。 实施持续的监控,包括云环境的日志、网络流量和异常行为。当检测到潜在事件时,进行初步分析以确定事件的性质和严重性。 实施快速安全响应动作,隔离受影响的系统或账户、断开网络连接、停止服务、清除恶意文件、修复漏洞、替换受损系统并加固系统,确认所有威胁已经被完全清除,避免再次发生。