检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
云日志服务提供多种接入方式实现海量日志接入LTS,支持日志搜索引擎、SQL分析引擎、日志加工引擎,详细请参考下图。 端云全场景日志接入:40+云服务、主机/容器、移动端、跨云、多语言SDK、多账号汇聚,满足全场景客户丰富的日志接入需求。 海量日志存储搜索:百亿日志秒级搜索,千亿日志迭代搜索,PB级智能冷存储。
RES11-04 灾难演练 通过容灾演练,可以验证灾备系统是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 灾难演练着重测试服务跨AZ或跨Region故障转移能力,验证系统的容灾能力以及面对灾难时的应对能力,涉及到多个团队间配合,通常
的意识和理解。 相关云服务和工具 安全云脑 SecMaster 云监控 CES:使用CES获取安全事件的告警通知。CES提供对监控指标的告警功能,当云服务的状态变化触发告警规则设置的阈值时,系统提供邮件和短信通知,用户可以在第一时间知悉业务运行状况,还可以通过HTTP、HTTPS
力,确保云上资源配置变更符合客户预期。 安全运营 安全云脑 SecMaster:华为云原生的新一代安全运营中心,集成华为云多年安全经验,基于云原生安全,提供云上资产管理、安全态势管理、安全信息和事件管理、安全编排与自动响应等能力,可以鸟瞰整个云上安全,精简云安全配置、云防护策略的
体资产(常称为形态项目,CI)资讯的数据库。用CMDB来追踪资产(例如产品、系统、软体、设备、人员)的状态,例如这些资产在特定的时间点是否存在,以及各资产之间的关系,并通过公开的接口支持IT管理各种业务数据消费。 MTTR MTTR(Mean Time to Repair)平均恢
DevOps 的合成词,强调 IT、财务和业务团队必须协作,将财务责任引入云,并在速度、成本和性能之间做权衡时做出数据驱动的明智决策。 CFM 华为云云财务管理(Cloud Financial Management),参考FinOps流程实践,E2E构建云财务管理能力,旨在帮助客户提高云支
RES12-05 应急恢复回溯 在业务进行应急恢复处理后,需要对事件进行回溯并进行优化,以避免故障的再次发生。 风险等级 高 关键策略 对问题进行定位和修复,优化产品能力,减少同类事件的发生。 针对应急恢复过程进行总结,优化恢复过程。 父主题: RES12 应急恢复处理
RES12 应急恢复处理 应用系统无论如何精心设计,仍可能会出现无法恢复的故障,当此类故障发生后,需要进行应急恢复处理。 RES12-01 组建应急恢复团队 RES12-02 制定应急预案 RES12-03 定期应急恢复演练 RES12-04 出现问题后尽快恢复业务 RES12-05 应急恢复回溯
RES14 配置防差错 配置防差错是针对配置过程中因人输入了错误的配置数据导致系统和业务受损或失效场景下通过产品设计降低或避免配置错误产生的影响。 RES14-01 变更防呆检查 RES14-02 自动化变更 RES14-03 变更前数据备份 RES14-04 提供runbook进行标准化变更
根据“常见IT系统SLO示意”中的表格可以得知,不同的IT系统,SLO目标是存在差异的,不是所有的应用系统都需要达到最高可用性要求。 当系统可用性目标要求升高时,所需的成本也通常会增加,因此在可用性目标制定时,需要对韧性与成本进行权衡,确定真正的可用性需求。 在系统的可用性目标明
DCS实例支持定时和手动两种备份方式,定时备份频率以天为单位,最多保存7天,但至少会保留一个数据备份文件;手动备份由用户触发,通常在执行业务系统维护、升级等高危操作进行,保存期限无限制。 DCS指定备份集恢复。恢复过程中,实例会有一段时间不能处理客户端的数据操作请求,当前数据将被删除,待恢复完成后存储原有备份数据。
S4/S5。 实施持续的监控,包括云环境的日志、网络流量和异常行为。当检测到潜在事件时,进行初步分析以确定事件的性质和严重性。 实施快速安全响应动作,隔离受影响的系统或账户、断开网络连接、停止服务、清除恶意文件、修复漏洞、替换受损系统并加固系统,确认所有威胁已经被完全清除,避免再次发生。
某些频繁的日志告警。 预警增强:对于某些影响业务方的操作,提供预警。 增强紧急预警:有些硬件故障会出现反应在 /var/log/messages 中,根据关键字匹配硬件类告警,以便及时处理。 相关云服务和工具 应用运维管理 AOM 云运维中心 COC 云监控服务 CES 父主题:
概述 本章节介绍常用云服务的可靠性功能与故障模式,以便应用系统能充分利用云服务提供的可靠性能力,提升应用系统的可靠性,并能针对云服务的常见故障模式,进行故障恢复处理,以便最大限度减少故障,并能从故障中恢复。 父主题: 云服务可靠性介绍
严酷度是度量故障给系统造成的最坏潜在后果,一般分为四个等级:Ⅰ类(严重)、Ⅱ类(较严重)、Ⅲ类(一般)、Ⅳ类(轻微)。 I类:这种故障会导致整个系统崩溃或主要功能受到严重影响; II类:这种故障会导致系统主要功能受到影响、任务延误的系统轻度损坏或存在较大的故障隐患; III类:系统次要功能
当程序运行在yarn-client模式下时,需要关注在driver端汇聚的数据量大小,根据自己的业务场景,为driver设置合理的内存。 根据自己的业务目标,规划CPU资源和内存资源。规划时,需要结合当前的数据分布情况,业务复杂度,设置“executor-memory”,“executor-core
比上年度减少多少。 相关云服务和工具 MAS-CAST故障注入服务:针对云应用提供测试工具和注入手段,支持故障和业务流程编排的可靠性评估测试、压力负荷测试、CHAOS随机故障注入、生产环境故障演练等能力。 云运维中心 COC:支持混沌演练,为用户提供一站式的自动化演练能力,覆盖从
编码了流经分布式系统的端到端请求流。 风险等级 高 关键策略 当系统出现问题时,需要能够追踪系统中每个组件的行为和交互情况。通过在系统中实现分布式跟踪,可以快速定位问题并进行有效的故障排除。 设计建议 链路跟踪可以通过在系统中添加跟踪标识符来实现。当请求进入系统时,标识符将被添加
续改进。 设计建议 管道定义、执行和管理:使用持续集成和持续交付 (CI/CD) 工具(例如 华为云CodeArts Pipeline)自动定义管道及其运行方式. 部署:使用华为云资源编排服务 RFS、Terraform 和 Ansible 等工具来自动化工作负载开发和发布流程。通过使用基础架构即代码
有事情,被忽略的是最不重要的任务。主要用于处理瞬时突发负载导致超出系统处理的容量的情况,一般给重要任务赋予高优先级,最重要的行为优先得到处理。只适用于暂时超载的情况,如果超载不是暂时的,需要减少处理量,或者升级系统。如在性能过载场景下,按照功能优先级进行熔断间接,保证主要功能可用。