搜索_华为云

常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

常见故障模式 DCS的CPU /内存/带宽/连接数使用率过高检测：通过CES监控CPU /内存/带宽/连接数使用率。恢复：根据业务情况，手工变更规格以扩展资源。应用层进行过载保护，保障优先业务的运行，如将部分性能要求不高的业务切回到原始数据源。连接后端DCS失败检测：连接失败。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > DCS分布式缓存服务
SEC10-01 建立安全响应团队 - 云架构中心

SEC10-01 建立安全响应团队建立安全事件响应团队，明确各角色与职责。风险等级高关键策略安全事件响应团队一般包含如下角色及职责：安全响应专家：主导网络安全事件调查，负责对事件进行定级、通报、攻击溯源以及确定影响范围，制定应急处置措施，推动服务控制风险。攻击溯源专

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 安全运营 > SEC10 安全事件响应
OPS03-05 进行混沌测试和演练 - 云架构中心

验证高可用设计：业务系统在规划设计阶段进行架构高可用设计、监控设计，在上线前进行生产准备度评审 (PRR)、性能压测，确保系统能够持续提供稳定、可靠的服务。混沌工程从应用部署架构、服务容量、监控告警、应用高可用等多维度设计演练场景，先测试、后攻防、再突袭逐步递进式的开展演练。通过持续演练，对架构高可用、监控、PRR

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS03 完备的测试验证体系
OPS06-04 规范化应用日志 - 云架构中心

OPS06-04 规范化应用日志日志是随时间推移发生的不可变、记录时间戳的离散事件。系统需要记录关键事件和故障，以帮助诊断问题和解决故障。风险等级高关键策略对于一个系统来说，日志是非常重要的。它可以记录在系统中发生的一切，包括成功的操作、错误的操作、警告信息等等。因此，

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS06 可观测性体系
RES07-03 监控到异常后发送消息通知 - 云架构中心

务，在阈值规则发生变化时，可以以邮件或短信等方式通知，以便您在第一时间发现异常并进行处理。相关云服务和工具消息通知服务 SMN 云运维中心 COC：支持人员管理、排班管理和通知管理，可以根据通知规则自动将消息发送给要通知的人员。父主题： RES07 监控告警

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
OPS07-01 创建可操作的告警 - 云架构中心

增强紧急预警：有些硬件故障会出现反应在 /var/log/messages 中，根据关键字匹配硬件类告警，以便及时处理。相关云服务和工具应用运维管理 AOM 云运维中心 COC 云监控服务 CES 父主题： OPS07 进行故障分析和管理

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS07 进行故障分析和管理
RES11-03 长稳测试 - 云架构中心
RES11-03 长稳测试 - 云架构中心

RES11-03 长稳测试基于用户使用场景构建业务模型，自动化构建覆盖系统容量规格70%的业务量，持续7*24小时进行长时间负载测试以评估系统稳定性。风险等级高关键策略模拟各种业务场景进行测试。持续自动测试。测试结果发生偏差时自动告警，以便及时定位和处理。父主题：

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES11 可靠性测试
RES12-01 组建应急恢复团队 - 云架构中心

RES12-01 组建应急恢复团队为了应对紧急故障场景，需要组建应急恢复团队，明确责任人，并进行培训。风险等级高关键策略组建应急恢复团队：其中包括应急恢复主席及所有组件及关键依赖项的恢复责任人。应急恢复主席：在出现问题后及时组织应急恢复团队进行快速恢复处理。组件或关

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES12 应急恢复处理
PERF03-03 使用弹性伸缩 - 云架构中心

并防止在低需求时段过度预配。虚拟机弹性伸缩和容器弹性伸缩都是实现应用自动化扩容和缩容的方式，但虚拟机弹性伸缩需要更多的资源和时间来启动和部署，而容器弹性伸缩可以更快速地响应变化，同时具有更高的资源利用率。虚拟机场景可以使用AS，容器场景充分考虑CA和HPA的弹性策略。使用容器时弹性策略可参考下面内容：

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF03 性能建模 > 选择合适的计算资源
RES09-03 重试需要避免造成流量压力 - 云架构中心

RES09-03 重试需要避免造成流量压力对于链路闪断等原因导致的临时性故障，客户端进行一定的重试，可取得较好的效果；对于流量过载等原因导致的故障，重试可能会导致情况进一步恶化，因此需要避免这种影响。风险等级高关键策略客户端进行重试处理时，建议：增加指数回退和抖动方法

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES09 故障重试
常见故障模式 - 云架构中心
常见故障模式 - 云架构中心

常见故障模式云数据库 TaurusDB的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高检测：通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。恢复：根据业务情况，手工变更规格以扩展资源。开启自动扩缩容，以便在过载时自动扩容规格和/或只读节点。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 云服务可靠性介绍 > 云数据库 TaurusDB云数据库
SEC10-02 制定事件响应计划 - 云架构中心

SEC10-02 制定事件响应计划事件响应计划（Incident Response Plan, IRP）是组织安全策略的重要组成部分，它旨在确保在安全事件发生时，能够迅速、有序地采取行动，最大限度地减少损失，并尽快恢复正常运营。风险等级高关键策略建立事件响应计划，包括定

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 安全运营 > SEC10 安全事件响应
SEC10-05建立复盘机制 - 云架构中心

SEC10-05 建立复盘机制建立安全事件复盘机制可以帮助团队从过去的安全事件中学习经验教训，并改进未来的安全措施。风险等级中关键策略确定复盘的目的：在进行复盘之前，明确目的是非常重要的。确定您希望从这次安全事件中学到什么，以及如何改进未来的安全措施。收集事实和数据：

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 安全运营 > SEC10 安全事件响应
PERF04-01 定义验收标准 - 云架构中心

PERF04-01 定义验收标准风险等级高关键策略验收标准是用于评估指定工作负载是否满足性能要求的指标，需要在性能测试前期定义合理的验收标准。查看性能目标性能目标定义了工作负载所需的性能级别。查看为工作负载建立的性能目标。性能目标是可能涉及响应时间、吞吐量、资源利用率

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF04 性能分析 > 性能测试
SEC03-03 定期审视权限 - 云架构中心

SEC03-03 定期审视权限定期检视和更新权限，以避免权限蔓延，持续清理无用的权限。风险等级高关键策略使用IAM用户组控制人员的访问权限，并设置权限的到期时间。如果用户组的职责产生变化，应该及时调整用户组的权限。当账号委托给另一个账号时，设置到期时间。通过IAM

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 基础设施安全 > SEC03 权限管理
SEC08-03 数据主体的选择和同意 - 云架构中心

设置或读取在数据主体系统上的Cookie前（如用于营销或广告），应提供获取数据主体同意及撤销的机制。修改用户个人空间的行为（如系统或应用配置变更、下载软件、对用户系统或软件升级），须得到用户的同意。对未成年人提供服务或收集了包含年龄信息的个人信息时，需要实现从未成年人的监护人处获取同意的功能。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 数据安全与隐私保护 > SEC08 数据隐私保护
RES07-04 监控数据存储和分析 - 云架构中心

RES07-04 监控数据存储和分析监控数据包括统计和日志信息，均需要存储并进行生命周期管理，以满足数据监控的保留要求；并定期对其进行分析，以了解系统运行状态和趋势。风险等级中关键策略监控数据存储时长需要满足保留要求。监控数据需要定期分析，以便发现或预测系统故障，减少业务中断。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES07 监控告警
RES11-02 压力负载测试 - 云架构中心

RES11-02 压力负载测试通过施加超出系统容量的业务压力，验证云服务的过载保护、业务隔离和优雅降级等能力。为全面验证系统整体的容量规划和业务依赖，云服务应用通常采用全链路压测进行测试。风险等级高关键策略模拟大量接口消息进行压力测试。模拟各种业务场景进行压力测试。持续自动测试。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障快速恢复 > RES11 可靠性测试
PERF05-02 通用算法优化 - 云架构中心

PERF05-02 通用算法优化风险等级中关键策略算法优化是提高程序性能的关键，可以通过改进算法的设计和实现方式来提高其效率和性能。以下是一些最佳实践：使用正确的数据结构：选择合适的数据结构可以大辐提高算法的效率。例如，使用哈希表可以快速查找元素，使用数组可以快速访问元素。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF05 性能优化 > 算法优化
OPS07-04 支持故障恢复流程 - 云架构中心

OPS07-04 支持故障恢复流程风险等级高关键策略当现网发生故障时，既要快速恢复业务，又要降低影响，首先需要围绕故障全生命周期采取一系列控制流程，包含故障预防、故障发现、故障定位、故障恢复、故障复盘及持续改进（含故障演练），基于故障模式库，面向全流程、构建恢复能力、保证

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS07 进行故障分析和管理

总条数： 381

上一页
1
...
15
16
17
...
20
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

常见故障模式 - 云架构中心

SEC10-01 建立安全响应团队 - 云架构中心

OPS03-05 进行混沌测试和演练 - 云架构中心

OPS06-04 规范化应用日志 - 云架构中心

RES07-03 监控到异常后发送消息通知 - 云架构中心

OPS07-01 创建可操作的告警 - 云架构中心

RES11-03 长稳测试 - 云架构中心

RES12-01 组建应急恢复团队 - 云架构中心

PERF03-03 使用弹性伸缩 - 云架构中心

RES09-03 重试需要避免造成流量压力 - 云架构中心

常见故障模式 - 云架构中心

SEC10-02 制定事件响应计划 - 云架构中心

SEC10-05建立复盘机制 - 云架构中心

PERF04-01 定义验收标准 - 云架构中心

SEC03-03 定期审视权限 - 云架构中心

SEC08-03 数据主体的选择和同意 - 云架构中心

RES07-04 监控数据存储和分析 - 云架构中心

RES11-02 压力负载测试 - 云架构中心

PERF05-02 通用算法优化 - 云架构中心

OPS07-04 支持故障恢复流程 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线