检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
COST07 管理和优化资源 COST07-01 持续监控资源利用率指标 COST07-02 释放闲置资源 COST07-03 考虑不同的云资源技术选型 COST07-04 合理降配低负载资源或升配高负载资源 父主题: 成本优化支柱
会消耗算力、带宽;空间转移主要是消耗I/O带宽,有一定的时延,可能会降低吞吐。 观测性能指标 指标ID 指标名称 指标说明 cpu_usage CPU使用率 该指标用于统计ModelArts用户服务的CPU使用率。 mem_usage 内存使用率 该指标用于统计ModelArts用户服务的内存使用率。
数配置和函数代码。 目前,FunctionGraph提供的指标主要分为总览指标和函数指标。详细指标可参考官方指标文档。 父主题: 云服务性能优化介绍
建立可观测体系 2.定义可观测对象 3.制定和实施可观测性指标 4. 规范化应用日志 5. 实施依赖项遥测 6. 实施分布式跟踪 7. 通过可观测性指标引入自动化措施 OPS07 是否进行故障分析与管理? 1. 创建可操作的告警 2. 创新监控看板 3. 支持事件管理 4. 支持故障恢复流程
的容错能力、监控能力、应急响应能力、定界定位、快速恢复等确定性恢复能力。 验证高可用设计:业务系统在规划设计阶段进行架构高可用设计、监控设计,在上线前进行生产准备度评审 (PRR)、性能压测,确保系统能够持续提供稳定、可靠的服务。混沌工程从应用部署架构、服务容量、监控告警、应用高
选择合适网络服务资源 选择合适的网络服务资源是一个复杂的过程,需要考虑许多因素。以下提供了一些主要因素: 评估合适网络云服务,主要考虑如下性能指标: 网络流量:评估工作负载的预期网络流量,了解数据传输需求和网络请求的频率。 带宽要求:确定工作负载的带宽要求,考虑通过网络传输和接收的数据量。
ELB支持后端服务器多AZ部署,当某个AZ出现故障时,ELB仍可将流量转发到其他AZ的后端ECS处理,提高应用系统容灾能力。 监控告警 配合CES服务,支持对ELB的连接数、带宽、错误响应等进行监控和告警。详见“监控指标说明”。 父主题: ELB弹性负载均衡
PERF03-07 选择合适的Kafka 风险等级 中 关键策略 根据生产流量、消费流量、老化时间、副本数等指标,计算业务所需的规格,选择合适的Kafka规格。 规格测算: 性能容量维度所需最小节点数 = max((存储带宽需求 / 单节点存储带宽),(网络带宽需求 / 单节点网络基准带宽))
康检查。详见“修改健康检查配置”。 跨AZ容灾 配合ELB服务,可以实现跨AZ的故障切换。 监控告警 配合CES服务,支持对BMS的CPU、内存、磁盘、网络等进行监控和告警。详见“监控指标说明”。 父主题: BMS裸金属服务
灾,当一个AZ异常时,另一个AZ节点不受影响,备节点会自动升级为主节点,对外提供服务。 监控告警 配合CES服务,支持对DCS的CPU、内存、磁盘、网络等进行监控和告警。详见“支持的监控指标”。 父主题: DCS分布式缓存服务
RES02-02 自动数据备份 对于需要备份的数据,可根据该数据的RPO指标要求,设置定期备份策略进行自动备份。 风险等级 高 关键策略 使用华为云备份服务或第三方备份软件对数据进行备份,并可根据RPO要求设置自动备份频率。CBR云备份服务可对ECS/BMS/EVS/SFS Tu
定期对员工进行安全培训,提高他们对云安全的意识和理解。 相关云服务和工具 安全云脑 SecMaster 云监控 CES:使用CES获取安全事件的告警通知。CES提供对监控指标的告警功能,当云服务的状态变化触发告警规则设置的阈值时,系统提供邮件和短信通知,用户可以在第一时间知悉业务
COST04-01 建立规范,持续提升成本分配比例 风险等级 中 关键策略 成本是否准确有效的分配,是后续进行成本监控和优化的基础。客户应关注并提升成本分配比例,奠定成本治理的基础。 标签作为一种常见的成本分配方式,可以灵活匹配组织内多种分配场景(比如产品、应用、责任人),但在实
获取超预算通知,防止潜在成本超支。 创建成本监控,华为云成本中心的成本监控引入机器学习,对客户历史消费数据进行建模,对于不符合历史数据模型的成本增长,识别为异常成本记录,同时提供异常增长的Top潜在原因。客户可设置监控提醒,定期获取影响成本高的异常记录提醒,进而快速做出反应,维持预期的成本支出。
定期进行容灾演练,以检查恢复能否满足容灾目标 通过定期的容灾演练,可以验证灾备系统是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 每年至少进行一次容灾演练;通过演练可提升操作人员的熟练程度。 演练期间需要对恢复过程计时,以确定应用系统的RPO与RTO目标能否满足。
RES02-01 识别和备份应用中所有需要备份的关键数据 不同数据的重要性不一样,针对应用系统内的所有数据,需要明确其重要性及对应的RPO/RTO指标要求。比如对于重要数据,通常允许数据丢失的时间会比较少,从而需要更频繁的备份;对于一般的数据,允许数据丢失的时间比较长,可以使用较低的备份
预拉取功能的信息可以参考这里。 观测性能指标 指标ID 指标名称 指标说明 channels 通道数 该指标用于统计RabbitMQ实例中的总通道数。 queues 队列数 该指标用于统计RabbitMQ实例中的总队列数。 connections 连接数 该指标用于统计RabbitMQ实例中的总连接数。
ion主备容灾,在出现Region级故障时可以快速在异地恢复业务。 监控告警 支持业务运行状况、成功指标的检查,在发生故障时告警;支持ECS、DCS、Kafka、RDS、DDS等实例负载状态及资源故障切换等的监控,在负载超过阈值或状态异常时告警。 弹性扩缩容 支持自动弹性伸缩;针
RES04-01 定义应用系统的容灾目标RPO与RTO 在进行容灾设计前,需要根据应用系统的重要性,明确其容灾目标,通常以RPO和RTO指标来定义: RPO:允许的数据丢失量,与数据的周期性复制周期或连续性复制延时相关。 RTO:允许的业务恢复时长,即业务中断时长,与灾备端业务的部署与切换方式相关。
您是否使用考虑了不同的计费模式优化成本? 1. 了解云上不同计费模式的特点 2. 为工作负载选择合适的计费模式 3. 跟踪并监控权益商品的使用情况 COST07 您是否管理了和优化了资源使用情况? 1. 持续监控资源利用率指标 2. 释放闲置资源 3. 考虑不同的云资源技术选型 4. 降配低负载资源或升配高负载资源