检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
云运维中心(COC) 云运维中心(Cloud Operations Center,简称COC)为用户提供安全、高效的一站式智能运维平台,满足客户集中运维诉求。承载华为云确定性运维业务场景,提供变更管理、批量运维等核心特性,实现在安全合规的前提下,提升用户运维能力成熟度和云上运维效率。COC产品介绍:
常见故障模式 OBS桶流量过载 检测:通过CES监控请求数、请求成功率、上传/下载带宽等流量指标。 恢复: 应用层调整批量业务,避免业务高峰期进行备份等业务; 应用层进行重试,以应对暂时性故障,如网络拥塞;应用故障重试处理可参考“故障重试”。 应用层进行过载保护,保障优先业务的运行。
支持对告警规则进行启用、停止、删除等灵活操作。 实时通知:通过在告警规则中开启消息通知服务,当云服务的状态变化触发告警规则设置的阈值时,系统通过短信、邮件通知或发送消息至服务器地址等多种方式实时通知用户,让用户能够实时掌握云资源运行状态变化。 监控面板:为用户提供在一个监控面板
议使用华为云提供的专业服务。 2.观测性能指标实践 性能监控有助于实时了解业务和系统的负载情况以及资源使用情况,结合告警规则的设置,云服务可自动对负载异常部分进行告警,以便更好地使用和维护云数据库系统。以GeminiDB 为例,您可以通过管理控制台,直观地查看GeminiDB Redis的各项监控指标。
每月或每年的具体时间点)。 CustomedHPA策略 Prometheus Prometheus(停止维护) 云原生监控插件 一套开源的系统监控报警框架,负责采集kubernetes集群中kubelet的公开指标项(CPU利用率、内存利用率)。 NA CronHPA CCE容器弹性引擎
没有消息,会导致分区间的数据不均衡。 生产者发送消息时指定了消息Key,按照对应的Key发送消息至对应的分区,会导致分区间的数据不均衡。 系统重新实现了分区分配策略,但策略逻辑有问题,会导致分区间的数据不均衡。 Kafka扩容了Broker节点,新增的节点没有分配分区,会导致节点间的数据不均衡。
OPS05-01 进行生产准备度评审(Product Readiness Review) 风险等级 高 关键策略 Production Readiness Review 生产准备度评估基线:从SLI/SLO、可冗余、可容灾、可过载控制、可故障管理、可变更能力、可运维、安全生产等维
可靠性功能 集群HA RDS服务支持HA主备高可用架构,故障秒级自动切换。 数据持久性 RDS数据持久性高达99.9999999%,保证数据安全可靠,保护业务免受故障影响。 数据备份和恢复 RDS支持每天自动备份数据,备份都是以压缩包的形式自动存储在对象存储服务(Object Storage
韧性支柱 韧性支柱简介 基本概念 设计原则 问题和检查项 高可用设计 故障全面检测 故障快速恢复 过载控制 变更防差错 参考架构 云服务可靠性介绍
资源编排服务(RFS) 资源编排服务是完全支持业界事实标准Terraform(HCL + Provider)的新一代云服务资源终态编排引擎,在应用编排服务(AOS)基础上实现了生态、体验、特性的全新升级;资源编排服务基于业界开放生态HCL语法模板,实现云服务资源的自动化批量构建,
尽量使用Map Join减少Shuffle的次数,大幅提升性能 不同SQL语句,完成同一个功能,生成Map Reduce的数量越少越好 Hive系统默认是典型的配置场景,结合业务实际情况,可以做一些参数的调整,如文件块的大小,Map个数与Reduce的个数,压缩算法等。 合理的使用分区
成本优化支柱简介 成本优化支柱专注于帮助企业高效地使用云服务来构建工作负载,面向工作负载的整个生命周期不断完善和改进,减少不必要的开支并提升运营效率,让云上应用始终最具成本效益。 成本优化实践不意味着只有降本,它是安全合规、韧性等维度的平衡,也是达成业务目标的最优投入。 华为公司
可靠性功能 负载均衡 配合弹性负载均衡ELB服务,可以对弹性伸缩组创建的弹性云服务器进行负载均衡。 健康检查 健康检查会将异常的实例从伸缩组中移除,伸缩组会重新创建新的实例以维持伸缩组的期望实例数和当前实例数保持一致,伸缩组的健康检查方式主要包括以下两种。 云服务器健康检查:是指
可靠性功能 集群HA CCE集群支持3个Master节点高可用部署,确保集群的可靠性。 数据备份和恢复 为满足数据持久化的需求,CCE支持将云硬盘(EVS)创建的存储卷挂载到容器的某一路径下;CCE通过云硬盘EVS服务提供针对云硬盘的快照功能,当数据丢失时,可通过快照将数据完整的恢复到快照时间点。详见“快照与备份”。
ph环境创建完成这个周期通常称为 冷启动时间。在serverless架构中,冷启动问题是无法避免的。 目前FunctionGraph已经对系统侧的冷启动做了大量优化,针对用户侧参考以下方案。: 选择合适的编程语言 目前FunctionGraph支持的编程语言(Runtime)有
OBS对象存储服务 对象存储服务(Object Storage Service,OBS)是一个基于对象的海量存储服务,提供海量、安全、高可靠、低成本的数据存储能力。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
DCS分布式缓存服务 分布式缓存服务(Distributed Cache Service,简称DCS)是华为云提供的一款兼容Redis的高速内存数据处理引擎,可提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力,满足用户高并发及数据快速访问的业务诉求。 可靠性功能 常见故障模式
OPS03-02 使用多个环境进行集成测试,构建和生产环境相同的预生产环境 风险等级 高 关键策略 开发者测试虽然成本低,但是缺乏对生产环境配置以及不同服务和应用之间实际交互的验证。为此,您的组织可以在云上提供多个环境,典型的环境包含测试环境,预生产环境和生产环境。在生产环境部署
成本优化云服务介绍 成本中心是华为云免费向用户提供的云财务管理服务,可帮助您收集华为云成本和使用量的相关信息、探索和分析华为云成本使用情况、监控和跟踪华为云成本,及时了解云支出的趋势和动因,减少异常支出,持续成本优化。 费用中心为您提供财务信息、发票、合同、续费、退订和变更等服务
RabbitMQ性能优化 保持尽可能短的队列长度 太多的消息堆积在队列中会造成内存负载过高,为了释放内存,RabbitMQ 会把消息转存到磁盘,转存过程会耗费大量时间,造成消息处理速度下降或直接阻塞生产流程。因此队列中堆积过多的消息容易对 broker 产生负面效应。除此之外,如