检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DCS分布式缓存服务 分布式缓存服务(Distributed Cache Service,简称DCS)是华为云提供的一款兼容Redis的高速内存数据处理引擎,可提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力,满足用户高并发及数据快速访问的业务诉求。 可靠性功能 常见故障模式
建立持续改进的团队文化和标准化的运维体系 OPS01-01 建立持续学习和改进的文化 OPS01-02 规划标准化的运维组织 OPS01-03 规划标准化的运维流程和运维工具 父主题: 卓越运营支柱
参考架构 概述 内部工具或公测类应用典型部署架构(99%) 内部知识管理类应用典型部署架构(99.9%) 信息管理类应用典型部署架构(99.95%) 电商类应用典型部署架构(99.99%) 金融类核心应用典型部署架构(99.999%) 跨云场景典型部署架构(99.99%) 父主题:
中间件层:Redis、Kafka集群跨可用区高可用部署。 数据层:MySQL数据库跨可用区高可用,通过DRS数据复制服务实现跨Region的双向数据库复制与容灾切换;并支持定期自动数据备份,在数据丢失时能快速恢复。OBS对象存储服务同样支持跨Region的双向复制能力。 为了保证数据的可靠性,RDS for My
指导策略还是首先让系统运行起来,再考虑怎么让它变得更快。一般只有在我们证实某部分代码的确存在一个性能瓶颈的时候,才应进行优化。除非用专门的工具分析瓶颈,否则很有可能是在浪费自己的时间。另外,性能优化的隐含代价会使我们的代码变得难于理解和维护,这一点也是需要权衡和关注的。 设计优化
用途。 与业务部门、开发团队、运维人员等进行交流,获取关于数据的详细信息。 确定数据的分布:需要确定数据存储在哪里,例如云硬盘、数据库、对象存储等。 评估数据敏感度。 确定数据的类型和内容,例如是否包含个人身份信息(如姓名、身份证号、地址等)、财务数据(如银行账号、交易记录等)、
备份软件可以支持各种数据的备份。 华为云云服务提供了备份工作负载数据的功能,典型的备份有: 云备份CBR服务:CBR提供对磁盘(EVS)、服务器(ECS、HECS、BMS)基于快照的备份和恢复能力,SFS Turbo文件系统备份,云服务器部署的MySQL或SAP HANA等数据库
128TB的海量存储,故障秒级切换,既拥有商业数据库的高可用和性能,又具备开源低成本效益。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
伸缩。 中间件层:Redis、Kafka集群跨可用区高可用部署,单个AZ故障对业务没有影响。 数据层:GaussDB与DDS数据库及OBS对象存储跨3AZ高可用部署,数据分布式强一致,单个AZ故障对业务没有影响,数据零丢失。 为了保证数据的可靠性,GaussDB与DDS数据库的数据定期自动备份。
资源编排服务(RFS) 资源编排服务是完全支持业界事实标准Terraform(HCL + Provider)的新一代云服务资源终态编排引擎,在应用编排服务(AOS)基础上实现了生态、体验、特性的全新升级;资源编排服务基于业界开放生态HCL语法模板,实现云服务资源的自动化批量构建,
定义进程监控,还会监控包含关键字的进程个数。主要关注:运行中进程数、空闲进程数、僵死进程数等指标 日志监控 配置日志服务从日志中提取指定的关键词,便于您使用监控服务对日志中的关键指标进行监控及告警。主要关注:访问日志数量、错误日志数量、日志大小等指标 自定义监控 自定义监控展示用
手动管理基础设施既耗时又容易出错,尤其是在大规模管理应用程序时。 风险等级 高 关键策略 使用声明式工具:与命令式工具相比,声明式工具是部署和管理 IaC 的更好的整体选择。声明性工具对其定义文件使用更简单的语法,仅定义部署完成后所需的环境状态。命令式工具需定义达到所需最终状态所需的步骤,因此文件可能比声明性文件复杂
Z异常时,不影响实例持续提供服务。 监控告警 Kafka:配合CES服务,支持对Kafka实例、实例节点、实例主题、实例分区、实例分区的消费组、实例队列的消费组、实例的消费组等进行监控和告警。详见“支持的监控指标”。 RabbitMQ:配合CES服务,支持对RabbitMQ实例、
常见故障模式 RDS的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高 检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启存储空间自动扩容,以便在磁盘容量不足时自动扩容。 应用层进行过载保护,保障优先业务的运行。
场景,如社区未知bug、用户误操作、AZ级故障导致服务无法正常提供服务等场景,可以快速将服务切换到异构容灾实例继续提供服务。详见“异构容灾实例”。 数据备份和恢复 GaussDB(for MySQL)实例支持自动备份和手动备份,您可以定期对数据库进行备份,当数据库故障或数据损坏时
常见故障模式 CPU /内存/磁盘/带宽使用率过高 检测:通过CES监控CPU /内存/磁盘/带宽使用率。 恢复: 当CPU/内存使用高时,可根据业务情况,手工修改代理规格或增加代理数量以扩展资源。 当磁盘使用率高时,可根据业务情况,修改实例存储空间支持更大存储空间。 当带宽使用
Spark性能优化 概述 Spark是基于内存的分布式计算框架。在迭代计算的场景下,数据处理过程中的数据可以存储在内存中,提供了比MapReduce高10到100倍的计算能力。Spark可以使用HDFS作为底层存储,使用户能够快速地从MapReduce切换到Spark计算平台上去
优先通过自动化响应事件,避免占用业务交付和创新的时间。首先构建一个可重复的流程来缓解问题,然后关注自动缓解或解决根本问题以提升效率。 华为云相关云服务和工具 云监控服务 CES 云运维中心 COC 父主题: OPS07 进行故障分析和管理
s工具镜像站,目前已提供Maven、NPM、NuGet、CentOS、Ubuntu、Debian等镜像下载服务。 父主题: 卓越运营云服务介绍
常见故障模式 CCE集群的CPU /内存/磁盘容量使用率过高 检测:通过AOM监控CCE集群的CPU/内存/磁盘容量使用率。 恢复: 根据业务情况,手工变更集群规格或扩展资源。 CCE节点的CPU /内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率过高 检测:通过AOM监控