检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
相关的云服务。华为云客户基于Well-Architected架构的最佳实践会组合使用到这些云服务。我们的解决方案架构师在与客户进行沟通时,客户通常会提出以下疑问: 是否有一个全局性的视图可以表达构建安全工作负载的整体情况? 在多账号环境以及单账号环境中应该使用哪些云服务? 如何从
能设计,避免设计面面俱到的多功能组件/模块/方法/类;调用功能时,避免功能过剩、并对性能影响较大的调用;选择云服务的时候,选择合适的云服务,结合业务的特征选择合适的云服务类型和规格,利用好云弹性的特性的优势。设计功能过于复杂的组件,有时候是为了通用,有时候则是一种不好的软件设计习
一个实例故障时,应用可以自动故障切换和恢复业务。 相关云服务和工具 弹性云服务器 ECS 裸金属服务器 BMS 弹性负载均衡 ELB 云容器引擎 CCE 文档数据库服务 DDS 分布式缓存服务 DCS MapReduce服务 MRS 父主题: RES01 冗余
云数据库RDS(Relational Database Service,简称RDS)是一种基于云计算平台的稳定可靠、弹性伸缩、便捷管理的在线云数据库服务。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
常见故障模式 RDS的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高 检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启存储空间自动扩容,以便在磁盘容量不足时自动扩容。 应用层进行过载保护,保障优先业务的运行。
企业安全的最终目标不会随着采用云服务而改变,但实现这些目标的方式将会改变。为了安全地操作、管理您的工作负载,您必须对安全性的各个方面进行总体策略上的考虑。企业的管理层和安全团队需要根据企业总体安全战略和业务战略制定云安全战略,并且需要在计划采用云服务时尽早考虑安全性。 云安全治理策
选择合适的应用中间件云服务资源 华为云提供Kafka、RocketMQ、RabbitMQ三种不同版分布式消息服务,您可根据业务需求和不同版本优势来选择合适的消息队列。 PERF03-06 选择合适的消息队列 PERF03-07 选择合适的Kafka PERF03-08 选择合适的RocketMQ
lone、Mesos或者YARN上,能够接入HDFS、HBase、Hive等多种数据源,支持MapReduce程序平滑转接。 集群服务部署规划 服务规模与业务容量参数配置对照表 Spark作为内存计算引擎,需要更多的内存和CPU。用户在规划规格时,应根据当前的业务容量和增长速度,
对于异常组件,需要能支持自动隔离,避免对整体业务造成影响。 相关云服务和工具 弹性负载均衡器 ELB:支持健康检查,会定期向后端服务器发送请求以测试其运行状态,并根据健康检查来判断后端服务器是否可用,当判断为异常后就不会将流量分发给该异常后端服务器。 云容器引擎 CCE:支持容器健康检查,容器运
和自动化运维方案,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。 父主题: 卓越运营云服务介绍
常见故障模式 弹性伸缩失败 检测:查看弹性伸缩组的弹性伸缩活动历史。 恢复: 根据伸缩活动失败描述信息进行修复。 父主题: AS弹性伸缩
常见故障模式 云数据库 TaurusDB的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高 检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启自动扩缩容,以便在过载时自动扩容规格和/或只读节点。
客户端CPU占用 服务端CPU占用 磁盘占用 broker带宽占用 gzip 中 中 低 中 低 lz4 中 中 中 中 中 zstd 高 中 低 低 低 snappy 低 高 高 高 高 如果追求高TPS,建议采用lz4压缩算法;如果追求较低的网络I/O或希望较低的客户端/服务端CPU占
应时间、服务级别目标(SLO) 或服务等级协议(SLA),同时应该记录团队间沟通信息,确保有足够的数据用于后续的改进。 例如一种运维组织设计是:将运维组织分为一线、二线和三线阶梯型运维支持团队,一线受理客户的服务请求,第一时间将大部分的服务请求闭环。二线处理一线升级的服务请求和监
常见故障模式 CCE集群的CPU /内存/磁盘容量使用率过高 检测:通过AOM监控CCE集群的CPU/内存/磁盘容量使用率。 恢复: 根据业务情况,手工变更集群规格或扩展资源。 CCE节点的CPU /内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率过高 检测:通过AOM监控
离架构,128TB的海量存储,故障秒级切换,既拥有商业数据库的高可用和性能,又具备开源低成本效益。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
常见故障模式 ELB的并发连接数/新建连接数/带宽使用率过高 检测:通过CES监控ELB的并发连接数/新建连接数/带宽使用率。 恢复: 根据业务情况,采用独享型负载均衡器,并手工调整ELB负载均衡器规格。 父主题: ELB弹性负载均衡
应用场景是低时延的数据处理(Data Processing)场景:高并发pipeline处理数据,时延毫秒级,且兼具可靠性。 集群服务部署架构 服务规模与业务容量参数配置 Flink作为流数据处理引擎,依赖内存和CPU。用户在规划规格时,应根据当前的业务容量和增长速度,规划合理的
区未知bug、用户误操作、AZ级故障导致服务无法正常提供服务等场景,可以快速将服务切换到异构容灾实例继续提供服务。 数据备份和恢复 云数据库 TaurusDB实例支持自动备份和手动备份,您可以定期对数据库进行备份,当数据库故障或数据损坏时,可以通过备份文件恢复数据库,从而保证数据可靠性。
过验证故障发现手段、故障修复能力来达到缩短故障修复时长的作用。 运维托管 运维托管服务是一种针对企业或组织的IT基础设施进行全面管理和维护的专业服务,旨在提高IT系统的可用性、可靠性和安全性。该服务涵盖了多个方面,包括系统监控、故障排除、系统优化、安全防护等。 父主题: 卓越运营支柱