检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对各组成单元潜在的各种故障模式及其对产品功能的影响进行分析,并把每一种潜在故障模式按它的严酷度予以分类,找出单点故障和产品的薄弱环节,提出可以采取的预防改进措施,以提高产品可靠性的一种设计方法。 当应用系统部署在华为云中时,华为云提供了基础设施的故障管理,应用系统可减少对机房、电
SEC02-03 网络访问权限最小化 确保只有必要的人员或组件可以访问特定的网络资源。 风险等级 高 关键策略 通过配置安全组和网络访问控制列表(ACL),控制进出云资源的网络流量,确保只有授权的流量能够访问特定的服务和端口。根据业务实际情况优化每个网络区域的ACL,并保证访问控制规则数量最小化。
统一身份管理系统与私有云、公有云平台的IAM系统进行身份联邦,统一身份管理系统中的用户身份可以同时访问私有云和公有云平台。 统一身份管理系统与公司的HR流程结合,当员工入职、调岗和离职时可以触发用户的创建、变更和删除。 针对Landing Zone搭建的云上多账号环境,利用IAM
确保数据隐私。 管理性:通过分隔工作负载,可以更轻松地管理和维护系统。每个工作负载都有独立的配置和管理需求,分隔可以简化管理流程并降低操作风险。 灵活性:分隔工作负载可以提供更大的灵活性和可扩展性。组织可以根据需要调整和扩展不同工作负载的资源,而不会影响其他部分。 华为云提供了以下几种工作负载的分隔机制:
定具体的性能目标或阈值。设定这些目标和阈值可以帮助我们更好地监控和管理性能,并采取优化措施。这不仅可以提高系统的性能,还可以提高用户满意度。 比如购物网站,我们可以设定页面加载时间不能超过5秒,如果页面加载时间超过设定的阈值,我们就可以采取优化措施,例如优化图片大小、减少HTTP请求等,以提高页面加载速度。
数据持久度 数据持久度是指数据不丢失的概率,即存储在预计周期内不出现数据丢失的概率,可以用于度量一个存储系统的可靠性。其只表示数据是否丢失的概率,不体现数据丢失多少;数据持久度的预计周期,一般按一年进行预计。 影响存储数据持久度的主要因子有:冗余数、磁盘失效率与数据修复时间。其中
资源性能数据收集 风险等级 中 关键策略 每个华为云提供的云服务都有一组特定于资源功能的指标,用于呈现有关资源的使用情况。通过收集资源性能数据,可以深入了解工作负载的运行状况和行为。 指标作用: 帮助你了解资源的运行状况和性能, 在云监控平台上配置对应的告警策略和配置指标看板。 通过跟踪分析网络路径上的流量来优化网络性能。
华为云责任:华为云提供高可用的基础设施,包括运行华为云服务的硬件、软件和机房设施,并确保服务可用性满足SLA服务等级协议。 客户责任:客户可以从华为云选择合适的产品并进行可靠性配置以符合应用韧性目标,并参考本白皮书中的设计原则与最佳实践,充分考虑各种异常场景的检测和恢复能力,来构建高可用应用系统。
组织则可以以成本效率为主要考量,设计比较严格的云成本优化策略。 企业还可以借助华为云成本中心提供的云成本管理工具和平台来实现自动化的成本监控和优化。 节省和优化,使用不同的计费模式,资源优化和架构优化 云支出的主要影响因素是费率和用量,结合云化业务模型和成本数据分析,可以使用不同
ace),跟踪可以追踪单个请求或事务在系统中的路径,帮助我们了解系统的执行情况。 对于构建在云上的应用,通过可观测性,可以快速发现和解决系统故障,从而提高系统从故障中的恢复速度。进一步地,可以提前发现系统的问题,例如性能,容量瓶颈,提前解决问题。更进一步地,您可以通过联动可观测性
金丝雀部署(灰度发布)是将少量客户引导到新版本的做法,通常在单个服务实例(Canary)上运行;当检查到任何行为更改或错误时,可以将Canary中的流量删除,并将用户发回到以前的版本。如果部署成功,则可以继续以期望的速度进行部署,同时监控更改以便发现错误,直到所有部署完成。 蓝绿部署与金丝雀部署类似,只是
安全威胁 安全威胁指的是可能导致系统、网络或数据遭受损害、被破坏或被访问的潜在危险因素或事件。安全威胁可以是意外的,也可以是有意的,可能会导致系统遭受攻击或受到损害。安全威胁可以是外部的(如黑客攻击、恶意软件)或内部的(如员工疏忽、内部泄露)。 威胁建模 识别系统的潜在威胁以建立防护策略,构建安全的系统。
要从应用层来实现高可用,以便在所依赖的硬件故障时业务能快速恢复。 虚拟机HA:当ECS不依赖于特殊资源时,可以支持虚拟机故障自动恢复功能,在其所在物理服务器故障的情况下,可以自动在其他物理服务器上重启;对于部署在这种ECS中的工作负载,需要支持虚拟机重启后业务自动恢复的功能,并能
如果配置了这类探测器,就可以控制容器在启动成功后再进行存活性和就绪检查, 确保这些存活、就绪探针不会影响应用程序的启动。 这可以用于对启动慢的容器进行存活性检测,避免它们在启动运行之前就被终止。 详见“设置容器健康检查”。 反亲和 CCE支持节点反亲和,在创建节点池时,可以指定云服务器组以
据丢失时可进行灾难恢复。 对于跨云容灾场景,当应用系统已部署在IDC或其他云中,可以在华为云中另外部署一套系统并将数据从IDC或其他云复制到华为云中,以便在发生整IDC或整朵云服务中断或数据丢失时可以进行灾难恢复。 RES04-01 定义应用系统的容灾目标RPO与RTO RES04-02
用户也可以自定义文件的元数据。 存放的是二进制数据,无法直接存放文件,如果需要存放文件,需要先格式化文件系统后使用。 访问方式 在ECS/BMS中通过网络协议挂载使用,支持NFS和CIFS的网络协议。需要指定网络地址进行访问,也可以将网络地址映射为本地目录后进行访问。 可以通过互
如果使用临时队列(包括排他队列、自动删除队列、非持久化队列),可以调用不带参数的接口queueDeclare()让 RabbitMQ 自动为你分配一个队列名。 根据需要使用自动删除队列 如果不再使用的队列资源长期保存在服务端,可能对 RabbitMQ 性能造成影响,可以通过三种方法自动地删除队列:为队列设置
可靠性功能 负载均衡 配合弹性负载均衡ELB服务,可以对弹性伸缩组创建的弹性云服务器进行负载均衡。 健康检查 健康检查会将异常的实例从伸缩组中移除,伸缩组会重新创建新的实例以维持伸缩组的期望实例数和当前实例数保持一致,伸缩组的健康检查方式主要包括以下两种。 云服务器健康检查:是指
Core数量等,通过这些指标可以衡量任务在该类型机器或该机器上的执行情况,观察集群各机器的通用指标,可以看到集群的负载是否均衡。 接入层指标 Hive连接数,并行SQL数量,输入缓存值(或每批大小)。单HiveServer实例可以处理的最大并发数可以通过参数控制,默认是500,该
和OU,每个业务OU下面可以按照业务系统创建独立的成员账号。规模较大的业务系统或安全隔离要求严格(如需要遵守PCI-DSS、HIPPA等合规标准)的业务系统对应一个独立的成员账号,安全隔离要求不高的多个小型业务系统可以共享一个成员账号。以销售部为例,可以为销售管理系统、数字化营销