搜索_华为云

OPS07-04 支持故障恢复流程 - 云架构中心

OPS07-04 支持故障恢复流程风险等级高关键策略当现网发生故障时，既要快速恢复业务，又要降低影响，首先需要围绕故障全生命周期采取一系列控制流程，包含故障预防、故障发现、故障定位、故障恢复、故障复盘及持续改进（含故障演练），基于故障模式库，面向全流程、构建恢复能力、保证平均恢复时长

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS07 进行故障分析和管理
LTS助力某公司高效完成日常业务运维与等保合规 - 云架构中心

LTS助力某公司高效完成日常业务运维与等保合规某公司是一家拥有IT，汽车及新能源三大产业群的新技术民营企业。2022年8月，公司入选2022年《财富》世界500强排行榜。客户痛点：业务部门较多，日志量较大，项目管理较为困难云服务资源种类数量较多，监控指标和运维日志不熟悉，运维难度大

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > 参考案例
OPS07-01 创建可操作的告警 - 云架构中心

相关云服务和工具应用运维管理 AOM 云运维中心 COC 云监控服务 CES 父主题： OPS07 进行故障分析和管理

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS07 进行故障分析和管理
COST05-02 建立可以量化的优化目标 - 云架构中心

设定一个明确的可量化的优化目标，有助于成本优化团队（上文中提到的云业务办公室、云卓越中心或 FinOps 团队）和决策层，利益相关方取得一致。父主题： COST05 优化指定策略和目标

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 成本优化支柱 > COST05 优化指定策略和目标
Flink性能优化 - 云架构中心
Flink性能优化 - 云架构中心

Flink性能优化概述 Flink是一个批处理和流处理结合的统一计算框架，其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理，是业界最顶级的开源流处理引擎。Flink最适合的应用场景是低时延的数据处理（Data Processing）场景：高并发pipeline

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > 云服务性能优化介绍 > 大数据性能优化
OPS05-03 定义变更流程 - 云架构中心

OPS05-03 定义变更流程风险等级高关键策略在建立标准的变更管理流程前，清晰明白变更各个流程的定义：变更发起：在变更发起前，需明确变更内容与变更原因等信息。信息的明确可减轻变更评估人的工作量，同时明确变更的意义。变更信息包括：基本信息：标题、时间、变更人、原因等。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS05 运维准备和变更管理
OPS06-04 规范化应用日志 - 云架构中心

OPS06-04 规范化应用日志日志是随时间推移发生的不可变、记录时间戳的离散事件。系统需要记录关键事件和故障，以帮助诊断问题和解决故障。风险等级高关键策略对于一个系统来说，日志是非常重要的。它可以记录在系统中发生的一切，包括成功的操作、错误的操作、警告信息等等。因此，日志记录是可观测性设计中最基本的需求之一

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS06 可观测性体系
RES03-01 集群跨AZ部署 - 云架构中心

RES03-01 集群跨AZ部署应用内所有组件均采用跨AZ容灾部署，以避免单AZ故障时业务中断。风险等级高关键策略云服务实例具备跨AZ高可用实例时，优先使用云服务实例自身的跨AZ高可用实例。云服务实例只支持发放单AZ实例，不支持跨AZ高可用实例时，需要借助其他云服务或应用层实现跨

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES03 跨AZ容灾
RES13-01 采用自动弹性扩缩容 - 云架构中心

RES13-01 采用自动弹性扩缩容当系统突发流量时，通过自动弹性扩容，可减少业务中断影响。风险等级高关键策略弹性扩缩容需要通过业务处理逻辑与数据分离、状态外置等技术手段支撑系统处理能力的快速增加或减少。系统扩容和缩容的处理方式有两种，一种是改变单机的处理能力，包括CPU

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 过载控制 > RES13 过载保护
RES14-01 变更防呆检查 - 云架构中心

RES14-01 变更防呆检查防呆是一种预防矫正的行为约束手段，运用防止错误发生的限制方法，让操作者不需要花费注意力、也不需要经验与专业知识，凭借直觉即可准确无误地完成的操作。风险等级高关键策略通过以下约束和检查，可减少配置差错：角色约束：通过权限控制设计预防对不同角色的配置范围进行约束

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES14 配置防差错
RES14-03 变更前数据备份 - 云架构中心

RES14-03 变更前数据备份通过配置数据事前备份与恢复设计，确保在出现配置错误时能够快速恢复到正确的配置数据状态。风险等级高关键策略进行全量数据备份，以防变更过程中数据被破坏，影响业务。异常回滚时，可使用备份数据进行恢复。父主题： RES14 配置防差错

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES14 配置防差错
COST02-01 建立云预算与预测流程 - 云架构中心

相关服务和工具使用成本中心的成本分析，可以根据客户的历史支出预测未来时间范围的成本。成本分析的成本和使用量预测，会参考不同的计费模式特征，结合机器学习和基于规则的模型来分别预测所有消费模式的成本和使用量。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 成本优化支柱 > COST02 实施预算规划管理机制
RES02-03 定期进行备份数据恢复 - 云架构中心

RES02-03 定期进行备份数据恢复通过定期恢复测试，可以验证备份数据的完整性与恢复处理过程是否可用，且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。风险等级高关键策略定期执行备份数据恢复，以验证备份的完整性。为了避免备份恢复对生产业务造成影响，可以构建一个测试环境

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES02 备份
RES09-03 重试需要避免造成流量压力 - 云架构中心

RES09-03 重试需要避免造成流量压力对于链路闪断等原因导致的临时性故障，客户端进行一定的重试，可取得较好的效果；对于流量过载等原因导致的故障，重试可能会导致情况进一步恶化，因此需要避免这种影响。风险等级高关键策略客户端进行重试处理时，建议：增加指数回退和抖动方法，

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES09 故障重试
SEC10-02 制定事件响应计划 - 云架构中心

SEC10-02 制定事件响应计划事件响应计划（Incident Response Plan, IRP）是组织安全策略的重要组成部分，它旨在确保在安全事件发生时，能够迅速、有序地采取行动，最大限度地减少损失，并尽快恢复正常运营。风险等级高关键策略建立事件响应计划，包括定义事件级别

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 安全运营 > SEC10 安全事件响应
Kafka性能优化 - 云架构中心
Kafka性能优化 - 云架构中心

Kafka性能优化 Kafka性能优化优化客户端配置生产者配置建议可参考配置建议。消费者配置建议参数推荐值说明 max.poll.records 500 消费者一次能消费到的最大消息数量，默认为500，如果每条消息处理时间较长，建议调小该值，确保在max.poll.interval.ms

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > 云服务性能优化介绍 > 消息队列性能优化
COST07-03 考虑不同的云资源技术选型 - 云架构中心

COST07-03 考虑不同的云资源技术选型风险等级中关键策略定期咨询专家或华为合作伙伴，以便确定哪些服务和功能的成本更低。查看华为博客和其他信息源。如在非计算密集型场景，使用华为云的云耀系列服务器取代普通ECS服务器父主题： COST07 管理和优化资源

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 成本优化支柱 > COST07 管理和优化资源
OPS06-03 制定和实施可观测性指标 - 云架构中心

OPS06-03 制定和实施可观测性指标风险等级高关键策略指标是对时间周期内的测量数据的数值表示。可观测性指标是围绕发现率、定级准确率、定界时长、覆盖率、有效率、一致率打造可观测能力，将可观测设计规范统一发布，统一设计要求与运维管理要求。设计建议整体技术方案会变成标准并进行发布

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS06 可观测性体系
RES06-02 面向所有故障进行检测 - 云架构中心

RES06-02 面向所有故障进行检测针对所有故障场景，都需要能自动检测，以便及时发现和恢复故障。风险等级高关键策略所有故障都必须有检测。支持按不同维度进行故障检测，如Region、AZ、服务、方法、实例或容器ID等，检测维度与故障恢复方式对齐。检测到故障后需及时告警或自动恢复

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES06 故障检测
RES10-01 应用控制平面与数据平面隔离 - 云架构中心

RES10-01 应用控制平面与数据平面隔离通常应用的数据平面处理业务，比较重要，可用性要求比较高，而控制平面不直接处理业务，因此其故障时不应该影响业务系统。风险等级高关键策略应用控制平面与数据平面隔离，避免控制系统故障影响业务。数据平面所在业务系统的故障恢复可不依赖控制平面

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES10 故障隔离

总条数： 381

上一页
1
...
12
13
14
...
20
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

OPS07-04 支持故障恢复流程 - 云架构中心

LTS助力某公司高效完成日常业务运维与等保合规 - 云架构中心

OPS07-01 创建可操作的告警 - 云架构中心

COST05-02 建立可以量化的优化目标 - 云架构中心

Flink性能优化 - 云架构中心

OPS05-03 定义变更流程 - 云架构中心

OPS06-04 规范化应用日志 - 云架构中心

RES03-01 集群跨AZ部署 - 云架构中心

RES13-01 采用自动弹性扩缩容 - 云架构中心

RES14-01 变更防呆检查 - 云架构中心

RES14-03 变更前数据备份 - 云架构中心

COST02-01 建立云预算与预测流程 - 云架构中心

RES02-03 定期进行备份数据恢复 - 云架构中心

RES09-03 重试需要避免造成流量压力 - 云架构中心

SEC10-02 制定事件响应计划 - 云架构中心

Kafka性能优化 - 云架构中心

COST07-03 考虑不同的云资源技术选型 - 云架构中心

OPS06-03 制定和实施可观测性指标 - 云架构中心

RES06-02 面向所有故障进行检测 - 云架构中心

RES10-01 应用控制平面与数据平面隔离 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线