检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
常见故障模式 CCE集群的CPU /内存/磁盘容量使用率过高 检测:通过AOM监控CCE集群的CPU/内存/磁盘容量使用率。 恢复: 根据业务情况,手工变更集群规格或扩展资源。 CCE节点的CPU /内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率过高 检测:通过AOM监控
消息队列性能优化 以下章节我们结合一些具体建议和指标来说明如何针对消息队列的使用进行性能优化。 Kafka性能优化 RabbitMQ性能优化 父主题: 云服务性能优化介绍
人工智能性能优化 1.训练优化模型性能提升实践 参数调优策略:调整模型flash attention、并行切分策略、micro batch size、重计算策略等参数。 尽可能充分利用显存和算力,通过参数调优,初步优化性能。 性能拆解 参数调优后性能仍然与转商目标有较大的差距,需
Spark性能优化 概述 Spark是基于内存的分布式计算框架。在迭代计算的场景下,数据处理过程中的数据可以存储在内存中,提供了比MapReduce高10到100倍的计算能力。Spark可以使用HDFS作为底层存储,使用户能够快速地从MapReduce切换到Spark计算平台上去
RES05-01 网络连接高可用 应用系统对外提供服务时,需要确保对外网络连接的高可用,避免单个网络连接中断而导致业务不可用。 风险等级 高 关键策略 网络链路冗余:网络连接需要支持多路径,以实现高可用能力,以避免在一条网络路径中断的情况下,业务能切换到其他路径继续通信。 网络链
PERF03-09 选择合适的RabbitMQ 风险等级 中 关键策略 版本选择:RabbitMQ服务版本随时间更迭,选择版本时需注意查看不同版本状态与区分,详情可参考官方公告。 规格选择:RabbitMQ服务提供了不同规格实例可供选择,建议按照业务需求对比,选择合适的规格型号,具体实例规格请参考官方文档。
PERF03-07 选择合适的Kafka 风险等级 中 关键策略 根据生产流量、消费流量、老化时间、副本数等指标,计算业务所需的规格,选择合适的Kafka规格。 规格测算: 性能容量维度所需最小节点数 = max((存储带宽需求 / 单节点存储带宽),(网络带宽需求 / 单节点网络基准带宽))
PERF03-08 选择合适的RocketMQ 风险等级 中 关键策略 RocketMQ服务提供了多个维度定义规格,如资源规格、代理个数、存储容量、单个代理TPS、单个代理Topic数上限、单个代理消费组数上限等,建议根据不同版本涉及的具体规格情况选择合适的RocketMQ服务。
COST02-01 建立云预算与预测流程 风险等级 高 关键策略 由于云资源天然的易申请,易缩扩容的特性,使用云可以提高效率、创新速度和灵活性,与此同时,也导致了云成本和使用模式的高度可变,客户应调整现有的组织预算和预测流程,以适应云的变化。 客户应密切关注历史消费趋势和不断变化
PERF03-06 选择合适的消息队列 风险等级 中 关键策略 三种不同版分布式消息服务的适用场景如下: Kafka:兼容开源Kafka,适用构建实时数据管道、流式数据处理、第三方解耦、流量削峰去谷等场景,有大规模、高可靠、高并发访问、可扩展且完全托管的特点。 RocketMQ:
SEC04-02 控制网络流量的访问 控制网络流量以确保网络分区之间的流量是可预期的、允许的。依据零信任原则,需在网络级别验证所有的流量出入。确保网络设备的业务能力、网络每个部分的带宽满足业务高峰期的需要。 风险等级 高 关键策略 在设计网络拓扑时,仔细检查每个组件的连接要求,例
PERF01-01 全生命周期性能管理 风险等级 高 关键策略 指定性能目标 从性能角度来看,最好为性能场景定义具体的、量化的、可测量的性能目标。若要设置这些目标,需要充分了解业务要求以及预期将提供的服务质量。 需要与业务利益干系人共同关键功能的体验要求,而不是只关注技术指标。通
PERF03-11 选择合适的非关系型数据库 风险等级 中 关键策略 华为云数据库提供了DDS、GeminiDB两种非关系型数据库服务。 DDS:文档数据库服务(Document Database Service)完全兼容MongoDB协议,提供安全、高可用、高可靠、弹性伸缩和易
PERF05-03 WEB场景资源优化 风险等级 中 关键策略 对于已经配置好的资源,可以通过优化来提高性能。例如,优化操作系统的设置、调整网络带宽、优化数据库查询等。 云服务资源性能优化步骤包括: 识别性能瓶颈: 通过监控和分析云服务资源使用情况,找出性能瓶颈。 优化资源配置:
SEC07-04 静态数据的加密 加密可以防止未经授权的人访问和窃取数据。应该默认对敏感的静态数据进行加密,以确保即使数据遭到未经授权访问或意外泄露,也能保持机密性。 风险等级 高 关键策略 启用默认加密。对云硬盘 EVS、关系数据库 RDS、对象存储服务 OBS、弹性文件服务
OPS05-01 进行生产准备度评审(Product Readiness Review) 风险等级 高 关键策略 Production Readiness Review 生产准备度评估基线:从SLI/SLO、可冗余、可容灾、可过载控制、可故障管理、可变更能力、可运维、安全生产等维
COST08-02 云原生架构改造 风险等级 中 关键策略 基于云原生架构改造,主要是应用容器化和微服务化的改造,从而发挥云原生的优势,如:自动弹性扩缩容等,容器技术可以提高资源利用率,避免闲置资源,从而降低计算成本,应用微服务化可以降低运维复杂度,从而降低运维成本。 广告电商等
责任共担模式 云上应用系统的韧性,依赖于云基础设施及应用系统本身的韧性,任何一方故障,都可能会导致云上应用系统故障;因此需要华为云与客户共同承担责任,来保障应用系统的韧性。 华为云责任:华为云提供高可用的基础设施,包括运行华为云服务的硬件、软件和机房设施,并确保服务可用性满足SLA服务等级协议。
COST05-03 定期回顾和审核 风险等级 高 关键策略 为了让云上应用始终最具成本效益,推荐您定期对其进行回顾和审核,以了解是否有机会实施新的优化措施。 回顾和审核可以基于成本分配的原则,在应用级别执行,持续审核组织为每个云上应用付出的总体成本。通过综合考虑云资源成本,研发成本,运营管理成本(如托管服务
概念表 概念 解释 韧性 (Resilience) 系统从故障中保持在已知运行状态(甚至降级)的能力。在遭遇故障后快速恢复核心功能和数据,且在业务需要的时间窗内恢复到有效运行状态。 可靠性 (Reliability) 产品在规定的条件下和规定的时间内完成规定功能的能力。它的概率度量称为可靠度。