检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
容灾 应用在两个AZ各部署一套,进行双向复制,双活容灾;AZ故障时自动恢复。 监控告警 进行站点运行状态检查,在发生故障时告警;针对CCE、DCS、kafka、RDS、DDS等实例负载状态进行监控,在资源过载时需要告警。 弹性扩缩容 CCE集群支持工作负载的自动弹性伸缩。 变更防差错
优先通过自动化响应事件,避免占用业务交付和创新的时间。首先构建一个可重复的流程来缓解问题,然后关注自动缓解或解决根本问题以提升效率。 华为云相关云服务和工具 云监控服务 CES 云运维中心 COC 父主题: OPS07 进行故障分析和管理
重要三个梯度,对应每个梯度的指标配套对应的处理措施。对于敏感度或业务重要度的应用架构,可以新增一个提示级别的梯度。 相关云服务和工具: 云监控服务 CES 应用运维管理 AOM 应用性能管理APM 父主题: 性能看护
故障时业务自动恢复能力 备份 应用数据被破坏的情况下的恢复能力 容灾 在Region/AZ/IDC或其他云站点发生灾难的情况下的恢复能力 监控告警 应用系统故障后的检测和告警能力 弹性扩缩容 应用容量不足时的自动恢复能力 变更防差错 变更对应用业务中断的影响 应急恢复处理 应用在故障情况下的应急恢复能力
商企业的促销)触发。 此外还有类似于企业IT服务的管理,账号的管理等流程,围绕这些流程,您的企业可以使用并标准化一系列云上工具,如流水线,监控报警,日志处理,运维中心。从而将您企业的运维标准化,进而迈向卓越。上文中的一些关键流程的最佳实践(变更管理,告警和事件处理,问题和回溯流程
生产环境中测试发布过程。验证所有部署步骤是否按预期完成,如检查依数据、配置和服务。通过集成功能测试,和各种非功能测试以及运行状况检查等各种监控方法,进一步测试所有更改。 父主题: OPS03 完备的测试验证体系
应用跨AZ部署,AZ故障时自动恢复;支持跨云双活,在IDC或其他云出现故障时可以快速切换到华为云。 监控告警 进行站点运行状态检查,在发生故障时告警;针对CCE、DCS、kafka、RDS、DDS等实例负载状态进行监控,在资源过载时需要告警。 弹性扩缩容 CCE集群支持工作负载的自动弹性伸缩。 变更防差错
/var/log/messages 中,根据关键字匹配硬件类告警,以便及时处理。 相关云服务和工具 应用运维管理 AOM 云运维中心 COC 云监控服务 CES 父主题: OPS07 进行故障分析和管理
泄露带来的安全风险。 针对敏感数据,采取加密、掩码、匿名化等方式进行保护。这样,即使敏感数据被非法窃取,也可降低这类数据泄露的风险。 应该监控加密和解密密钥的使用,并根据数据用途、类型和分类来选择不同的加密密钥。 相关云服务和工具 数据加密服务 DEW:DEW与OBS、云硬盘(E
等。 设置特定指标 关键指标只是一个参考,在确定关键指标后,需要根据实际情况设定具体的性能目标或阈值。设定这些目标和阈值可以帮助我们更好地监控和管理性能,并采取优化措施。这不仅可以提高系统的性能,还可以提高用户满意度。 比如购物网站,我们可以设定页面加载时间不能超过5秒,如果页面
和能力提出了更高要求。 可靠性测试和演练通过主动引入故障来充分验证软件质量的脆弱性,从而提前发现系统风险、提升测试质量、完善风险预案、加强监控告警、提升故障应急效率等方面做到故障发生前有效预防,故障发生时及时应对,故障恢复后回归验证。基于故障本身打造分布式系统韧性,持续提升软件质
在本步骤完成前文确认的系统负载、背景数据量与需要请求的用户数据模型等测试设计。 5.执行测试 使用所选的测试工具进行性能测试,测试涉及查看和记录性能指标、监控运行情况以及查看出现的任何性能问题,同时监控和收集性能指标,例如响应时间、吞吐量、CPU和内存利用率以及其他相关指标。 使用定义的测试方案将工作负载置于预期负载
存储默认启数据加密 关键数据库部署数据库安全服务 使用云备份归档服务防关键数据丢失 安全运营 使用安全云脑鸟瞰整个云上安全 使用云日志、云审计、配置审计、云监控等服务管理云上资源 使用威胁检测服务检测各类云服务日志中的恶意活动和未经授权行为 使用云堡垒机接入运维 父主题: 参考架构
跨Region双活容灾,在出现Region级故障时可以自动切换在异地恢复业务。 监控告警 进行站点运行状态检查,在发生故障时告警;针对CCE、DCS、kafka、RDS、DDS等实例负载状态进行监控,在资源过载时需要告警。 弹性扩缩容 CCE集群支持工作负载的自动弹性伸缩。 变更防差错
性和准确性。 标签和元数据:使用标签和元数据来对云资源进行分类和描述,以便更好地组织和管理资源清单。通过标签可以快速识别和过滤资源,有助于监控和安全审计。 相关云服务和工具 解决方案工作台 InnoStageWorkbench:使用解决方案工作台辅助进行云上架构的可视化设计。 安全云脑
优先使用临时凭证并定期轮换凭证:定期更改账号的密码,并定期更新MFA设备。这有助于减少被猜测或盗用的风险。 启用审计日志:启用审计日志功能,以监控账号的活动。审计日志可以帮助检测异常行为并及时采取措施。 多账号管理场景:需指定一个账号作为中央账号(企业主账号),由这个账号再添加成员账
云审计服务CTS、云日志服务LTS、对象存储服务OBS等 安全云脑SecMaster、数据安全中心DSC、云审计服务CTS、配置审计Config 运维监控账号 统一监控和运维各个成员账号下的资源和应用,统一进行告警管理、事件处理和变更管理,并提供运维安全保障措施 运维团队 应用运维管理AOM、COC
改。 集中管控运维账号访问系统和资源的权限,对系统和资源的访问权限进行细粒度设置。 关于数据的安全审计见:SEC07-03 对数据操作实施监控 相关云服务和工具 云审计服务 CTS:用户开通CTS后,系统会自动创建一个追踪器,该追踪器会自动识别并关联当前租户所使用的所有云服务,并
风险发现个数与等级:定期评估分析(季度或年度)主动发现的风险数量和级别。 风险消减个数、等级与类型:风险降级的数量,风险消减的数量,增加预案的数量,改进监控项的数量。 故障恢复时长提升率:对应故障场景经过混沌工程演练,平均恢复速度提升的比率。 故障数量相比上年减少数量:本年度故障数量相比上年度减少多少。
建立事件响应计划,包括定义事件级别、响应流程和恢复策略。对服务可用性有影响或者租户可感知的安全事件划分为5个等级,S1/S2/S3/S4/S5。 实施持续的监控,包括云环境的日志、网络流量和异常行为。当检测到潜在事件时,进行初步分析以确定事件的性质和严重性。 实施快速安全响应动作,隔离受影响的系统