检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
离架构,128TB的海量存储,故障秒级切换,既拥有商业数据库的高可用和性能,又具备开源低成本效益。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
的资源使用情况。 接入层指标的观测 Manger的服务->Hive服务状态页面可以查看到相关的HiveServer的连接数,HQL的执行成功的统计信息。 HiveMetaStore指标的观测 在Manager的服务->Hive服务状态页面,查看HiveMetaStore当前的请求连接数量以及关键API性能。
常见故障模式 CCE集群的CPU /内存/磁盘容量使用率过高 检测:通过AOM监控CCE集群的CPU/内存/磁盘容量使用率。 恢复: 根据业务情况,手工变更集群规格或扩展资源。 CCE节点的CPU /内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率过高 检测:通过AOM监控
如关机、删除都是云服务器异常状态。伸缩组的健康检查方式默认是“云服务器健康检查”方式,指伸缩组会定期使用云服务器健康检查结果来确定每个云服务器的运行状况。如果未通过云服务器健康检查,则伸缩组会将该云服务器移出伸缩组。 弹性负载均衡健康检查:是指根据ELB对云服务器的健康检查结果进
常见故障模式 GaussDB(for MySQL)的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高 检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启自动扩缩容,以便在过载时自动扩容规格和/或只读节点。
选择合适的应用中间件云服务资源 华为云提供Kafka、RocketMQ、RabbitMQ三种不同版分布式消息服务,您可根据业务需求和不同版本优势来选择合适的消息队列。 PERF03-06 选择合适的消息队列 PERF03-07 选择合适的Kafka PERF03-08 选择合适的RocketMQ
lone、Mesos或者YARN上,能够接入HDFS、HBase、Hive等多种数据源,支持MapReduce程序平滑转接。 集群服务部署规划 服务规模与业务容量参数配置对照表 Spark作为内存计算引擎,需要更多的内存和CPU。用户在规划规格时,应根据当前的业务容量和增长速度,
活容灾,无缝实时切换。 后端服务器健康检查 ELB弹性负载均衡支持定期向后端服务器发送请求以测试其运行状态。当判断后端服务器健康检查异常后,就不会将流量分发到异常后端服务器,而是分发到健康检查正常的后端服务器,从而提高了业务的可靠性。当异常的后端服务器恢复正常运行后,负载均衡器会
CPU使用率 该指标用于统计ModelArts用户服务的CPU使用率。 mem_usage 内存使用率 该指标用于统计ModelArts用户服务的内存使用率。 gpu_util GPU使用率 该指标用于统计ModelArts用户服务的GPU使用情况。 gpu_mem_usage GPU显存使用率
根据以上方案,典型部署架构如下: 该架构的主要特点包括: 应用系统部署在单Region单AZ。 为了保证数据的可靠性,RDS数据库的数据定期自动备份到OBS,在数据丢失时可以快速恢复。 父主题: 参考架构
度到不同物理服务器上,以避免由于单台物理服务器故障而导致所有业务不可用的场景。 若ECS通过AS进行弹性伸缩时,则需要AS配置云服务器组反亲和,以避免AS自动创建的ECS运行在同一个物理服务器上。 若CCE集群节点或节点池采用弹性云服务器ECS时,建议配置云服务器组反亲和,以避免
应用场景是低时延的数据处理(Data Processing)场景:高并发pipeline处理数据,时延毫秒级,且兼具可靠性。 集群服务部署架构 服务规模与业务容量参数配置 Flink作为流数据处理引擎,依赖内存和CPU。用户在规划规格时,应根据当前的业务容量和增长速度,规划合理的
常见故障模式 ELB的并发连接数/新建连接数/带宽使用率过高 检测:通过CES监控ELB的并发连接数/新建连接数/带宽使用率。 恢复: 根据业务情况,采用独享型负载均衡器,并手工调整ELB负载均衡器规格。 父主题: ELB弹性负载均衡
客户端CPU占用 服务端CPU占用 磁盘占用 broker带宽占用 gzip 中 中 低 中 低 lz4 中 中 中 中 中 zstd 高 中 低 低 低 snappy 低 高 高 高 高 如果追求高TPS,建议采用lz4压缩算法;如果追求较低的网络I/O或希望较低的客户端/服务端CPU占
SEC05-06 使用托管云服务 将计算、数据库、存储等资源使用华为云云服务进行托管,避免自行构建增加的开发和运维成本。 风险等级 低 关键策略 实施用于托管资源的服务以便在责任共担模式中减少安全维护任务。例如使用华为云的数据库服务而不是自建关系型数据库的实例。 使用Server
场景,如社区未知bug、用户误操作、AZ级故障导致服务无法正常提供服务等场景,可以快速将服务切换到异构容灾实例继续提供服务。详见“异构容灾实例”。 数据备份和恢复 GaussDB(for MySQL)实例支持自动备份和手动备份,您可以定期对数据库进行备份,当数据库故障或数据损坏时
消息或者处理完消息后回给服务端一个 ack 消息。消费者确认机制会对性能造成影响,如果单纯追求高吞吐量,应该关闭手动确认功能。如果消息对于业务来说比较重要,那么应该在消息被处理完之后才确认该条消息。生产者使用 Confirm 机制来实现类似的功能,当服务端收到生产者发来的消息,它会返回一个
考虑不同的云资源技术选型 风险等级 中 关键策略 定期咨询专家或 华为 合作伙伴,以便确定哪些服务和功能的成本更低。查看华为博客和其他信息源。如在非计算密集型场景,使用华为云的云耀系列服务器取代普通ECS服务器 父主题: COST07 管理和优化资源
节进行详细描述。 问题 检查项/最佳实践 RES01 您如何使用冗余技术确保应用系统的高可用? 应用组件高可用部署 应用组件多位置部署 云服务器反亲和 RES02 您如何备份应用程序中的关键数据? 识别和备份应用中所有需要备份的关键数据 自动数据备份 定期进行备份数据恢复 RES03
风险等级 高 关键策略 华为云为防止资源滥用,限定了各服务资源的配额,对用户的资源数量和容量做了限制。如您最多可以创建多少台弹性云服务器、多少块云硬盘。在动态使用云服务资源时,需要了解云服务的限制,避免由于超过云服务配额限制而导致业务故障。当配置自动扩容时,需要确保自动扩容到最大时的规则不超过配额限制。