检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES08-01 减少强依赖项 系统内组件之间强依赖时,一个组件故障会对其他组件造成直接影响,影响系统可用性。 风险等级 中 关键策略 可以通过以下技术将强依赖项转换为非强依赖项: 提高关键依赖项的冗余级别,降低该关键组件不可用的可能性。 与依赖项的通信采用异步消息并支持超时重试,
常见故障模式 OBS桶流量过载 检测:通过CES监控请求数、请求成功率、上传/下载带宽等流量指标。 恢复: 应用层调整批量业务,避免业务高峰期进行备份等业务; 应用层进行重试,以应对暂时性故障,如网络拥塞;应用故障重试处理可参考“故障重试”。 应用层进行过载保护,保障优先业务的运行。
景。企业可以根据自己的需要,合理选择各种计费模式来适配不同的业务形态和降低费率,实现成本节省。从用量上,企业可以通过资源优化,释放闲置资源,降配等降低资源用量,或者通过离在线混部,弹性缩扩容等架构方案实现资源复用和闲时释放,也达到了资源用量的节省。费用优化、资源优化和业务架构优化
可以使用自动化的方式定期申请资源,使用后释放 相关服务和工具 华为云优化顾问,提供成本维度的巡检,识别ECS、EIP、EVS、ELB等闲置资源。 华为云成本中心,除识别ECS、EIP、EVS、ELB等闲置资源外,还基于历史消费提供节省评估。您可参考系统给出的利用率信息、预估月度
带宽费用拆分到不同的业务团队。 跨团队共享使用的CCE集群服务,应按照各团队分配和使用的CPU/内存等比例,将容器集群成本(包含CCE、ECS、EVS等服务成本)拆分到各个业务团队。 以上公共成本,以及其他共享资源&平台服务&服务支持&未及时标记产生的未分配成本,也可以按照一定的
内部工具类应用典型架构为前端无状态应用层+后端数据库,其中前端无状态应用可采用ECS或CCE(以ECS为例),后端数据库基于不同业务类型可采用不同数据库,通常为RDS for MySQL;为满足对应的可用性目标,建议方案如下: 类别 实施方案 冗余 ECS与RDS单节点部署。 备份 RDS自动备份,在数据故
该指标为从Kafka节点虚拟机层面采集的磁盘容量使用率。 broker_cpu_core_load CPU核均负载 该指标为从Kafka节点虚拟机层面采集的CPU每个核的平均负载。 broker_memory_usage 内存使用率 该指标为Kafka节点虚拟机层面采集的内存使用率。
参考案例 通过AOM助力系统运维能力提升,降低运维成本与难度 基于LTS采集多类端侧日志,问题全链路追踪分析和业务运营分析 LTS助力某公司高效完成日常业务运维与等保合规 父主题: 卓越运营支柱
制定和实施可观测性指标 OPS06-04 规范化应用日志 OPS06-05 实施依赖项遥测 OPS06-06 实施分布式跟踪 OPS06-07 通过可观测性指标引入自动化措施 父主题: 卓越运营支柱
响等。 组建复盘团队:邀请相关的团队成员和利益相关者参与复盘过程。确保涵盖各个关键领域的代表,如技术人员、安全运营人员等。 分析根本原因:通过结果追溯分析事件的根本原因,连续问几个为什么,找出导致事件发生的最根本的问题。这有助于避免将来类似事件的发生。 识别失误和缺陷:识别在安全
RES14 配置防差错 配置防差错是针对配置过程中因人输入了错误的配置数据导致系统和业务受损或失效场景下通过产品设计降低或避免配置错误产生的影响。 RES14-01 变更防呆检查 RES14-02 自动化变更 RES14-03 变更前数据备份 RES14-04 提供runbook进行标准化变更
散,从而造成整个系统失效。故障隔离技术的核心思想是将一个工作负载内的故障影响限制于有限数量的组件内,降低故障影响范围,防止产生级联故障。 通过划分故障隔离域,限制工作负载的影响,可有效进行故障隔离。 RES10-01 应用控制平面与数据平面隔离 RES10-02 应用系统多位置部署
供服务。 数据备份和恢复 云数据库 TaurusDB实例支持自动备份和手动备份,您可以定期对数据库进行备份,当数据库故障或数据损坏时,可以通过备份文件恢复数据库,从而保证数据可靠性。 云数据库 TaurusDB支持同区域备份与跨区域备份;跨区域备份是将备份文件存放到另一个区域存储
署,避免由于单个Region故障而导致所有业务中断。 在多AZ部署能满足需求的情况下,应优先使用多AZ部署。大多数工作负载的可用性目标都可通过在单个Region内多 AZ 部署来实现,只有工作负载具有极高的可用性要求或者其他业务目标时,才考虑多Region架构。 父主题: RES01
供有关工作负载性能的信息。 此数据包括数值,称为指标。 指标描述系统在特定时间点的状态。 它还包括包含组织成记录的不同类型的数据的日志。 通过收集性能数据,可以监视和分析工作负载的性能。 可以使用此信息来识别性能瓶颈、解决问题、优化资源分配,以及做出数据驱动的决策,以提高工作负载的整体性能效率。
按照以上评估,每年应用系统不可用的时长是45分钟,满足可用设计目标要求。 电子商务类应用典型架构为前端无状态应用层+后端数据库,其中前端无状态应用可采用ECS或CCE;后端数据库基于不同业务类型可采用不同数据库,通常采用RDS for MySQL;同时通常还会使用DCS、Kafka等中间件及DD
购,资源包使用过少则应在资源包到期后续购合适大小的资源包,避免浪费。 相关服务和工具 华为云成本中心提供资源包的使用率/覆盖率分析,您可以通过该工具了解已购资源包的使用率和覆盖率情况,识别资源包购买过多(使用率低),还是过少(覆盖率低),从而优化下一阶段的购买。 华为云费用中心提
整体技术方案会变成标准并进行发布,各个业务系统架构师在设计时遵循这套标准,这样可以保证能力能够从设计态开始,包括运行态、高可用架构等场景中得到应用。 可观测指标可以通过监控工具来实现,并允许在发生异常时发送警报。有很多监控工具可以使用,例如Prometheus、Grafana、Zabbix等,以及华为云提
请求/单位数据等。 网络带宽 带宽是指在一定时间内,传输数据的能力或速率。 网络流量 网络流量是指在网络中传输的数据量,它可以是指定时间内通过网络传输的数据总量,也可以是指网络中某个特定节点或连接上的数据传输速率。 网络延迟 网络延迟指的是从发送数据到接收数据所需的时间间隔。 父主题:
重要的数据,其数据丢失对业务没有影响,则不需要进行备份。 风险等级 高 关键策略 识别应用系统中的所有数据。数据可以存储在多种资源中,如ECS/BMS中的卷、RDS/DDS等数据库、SFS文件系统、OBS对象存储等。 根据重要性对数据进行分类。应用系统内的不同数据具有不同的重要程