检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
COST07-01 持续监控资源利用率指标 风险等级 高 关键策略 持续地在组织中定义资源的核心利用率指标(如CPU利用率,内存,CDN服务的流量,数据库的TPS),按(天、周、月)等时间周期发现规律,对低利用率资源的应用/项目进行审查。 父主题: COST07 管理和优化资源
证信息尽可能的客观、准确。 Analyze(分析):分析故障的根本原因及故障处理过程中优化点。 Summary(总结):总结本次故障及处理故障的过程。进行故障定性、故障定责及总结本次故障带来的经验教训并举一反三。 Action(行动):确定上面分析总结的结论,进行改进、优化及落地实施。
关键策略 基于业务的部署架构,一般可以从最底层的硬件基础设施到最上层的应用分成5层资源,云上服务可以只需要关注虚拟网络、实例、应用三层。结合每一层资源的特征指标进行分层建模,分别设置不同梯度的性能看护指标。通常按照指标劣化程度可以设计成一般、紧急、重要三个梯度,对应每个梯度的指标配套对应
y攻击的占比增加、社工手段的多样性增加,大部分攻击都是内网渗透、正面入侵很少。整体攻击战法更贴近于真实的网络入侵,符合“以攻促防”的目标。 防守要点变化: 从单点防护开始转变为多点协同防护;从大范围的黑名单拦截转变为有技巧性的联动防护;从边界的纵深拦截延伸到内网的异常监控;从被动的监控防御延伸到主动的诱捕溯源。
关键策略 通过建立的分层性能模型,判断系统是否会出现性能劣化的情况。当出现劣化事件时,需要通过自动化手段快速定位定界发现根因。可以通过应用模型建设三维的拓扑,把架构-空间-时间数据关联起来。这里面的关键是架构模型的建立及分层指标的聚合可视化能力,需要依赖持续的资源治理和数据治理。
包括事件发生的时间、地点、责任人、事件的过程、原因、影响等。 组建复盘团队:邀请相关的团队成员和利益相关者参与复盘过程。确保涵盖各个关键领域的代表,如技术人员、安全运营人员等。 分析根本原因:通过结果追溯分析事件的根本原因,连续问几个为什么,找出导致事件发生的最根本的问题。这有助于避免将来类似事件的发生。
日志是随时间推移发生的不可变、记录时间戳的离散事件。系统需要记录关键事件和故障,以帮助诊断问题和解决故障。 风险等级 高 关键策略 对于一个系统来说,日志是非常重要的。它可以记录在系统中发生的一切,包括成功的操作、错误的操作、警告信息等等。因此,日志记录是可观测性设计中最基本的需求之一。通
概述 本章节介绍常用云服务的可靠性功能与故障模式,以便应用系统能充分利用云服务提供的可靠性能力,提升应用系统的可靠性,并能针对云服务的常见故障模式,进行故障恢复处理,以便最大限度减少故障,并能从故障中恢复。 父主题: 云服务可靠性介绍
在华为公司,卓越运营代表着质量、效率和可持续的卓越客户体验。它帮助改进设计、开发、测试、部署、发布和运维活动,持续实现高质量的交付结果,推动了持续集成和持续交付(CI/CD)落地;同时助力打造确定性运维体系,让研发团队将更多时间用在构建让客户受益的新功能上,减少用于维护和处理突发事件的时间,从而带来运行良好的系统和平
跨职能团队:组建一个跨职能的安全管理团队,涵盖安全运营、安全架构、安全合规等不同领域的专业人员,以确保综合性的安全管理。 制定安全政策和流程:制定详细的安全政策和流程,明确安全管理的标准和规范。团队成员应遵守这些政策和流程,确保安全管理的一致性和有效性。 建立应急响应计划:开发和测试应急响应计划,以应对安全事件和紧
设计原则 以下是常用的性能优化指导原则: 中心化原则:识别支配性工作量负载功能,并使其处理过程最小化,把注意力集中在对性能影响最大的部分进行提升。 本地化原则:选择靠近的活动、功能和结果的资源;避免通过间接的方式去达到目的,导致通信量或者处理量大辐增加,性能大辐下降。 共享资源:
识别标签缺失和错误:在确定需要进行标签治理后,需要首先识别所有未打标签的资源和标签key&value错误的资源,然后从费用最高的资源开始逐步治理。建议利用云厂商提供的工具或者自建工具,通过自动化规则的方式,在资源创建的时候,就判断标签是否规范。另外一个更好的方式通过权限管理,识别资源创建人和组织,自动为资源打上标签。
根据“常见IT系统SLO示意”中的表格可以得知,不同的IT系统,SLO目标是存在差异的,不是所有的应用系统都需要达到最高可用性要求。 当系统可用性目标要求升高时,所需的成本也通常会增加,因此在可用性目标制定时,需要对韧性与成本进行权衡,确定真正的可用性需求。 在系统的可用性目标明确后,可参
确保只有必要的人员或组件可以访问特定的网络资源。 风险等级 高 关键策略 通过配置安全组和网络访问控制列表(ACL),控制进出云资源的网络流量,确保只有授权的流量能够访问特定的服务和端口。根据业务实际情况优化每个网络区域的ACL,并保证访问控制规则数量最小化。 避免暴露多余的公网IP,同时不应对
责任共担模式 云上应用系统的韧性,依赖于云基础设施及应用系统本身的韧性,任何一方故障,都可能会导致云上应用系统故障;因此需要华为云与客户共同承担责任,来保障应用系统的韧性。 华为云责任:华为云提供高可用的基础设施,包括运行华为云服务的硬件、软件和机房设施,并确保服务可用性满足SLA服务等级协议。
基于华为在安全、合规、隐私及数据保护领域积累多年的技术和治理能力,华为云为您提供安全、可靠、可信赖的基础设施和服务。华为云提出“七层防线+一个中心”的网络安全建设框架,通过多重、多方面的安全防线来成体系保障云上业务的安全性。 华为云把安全合规作为首要任务,安全是华为云和您之间的共同责任。在云服务模式下,
RES09-03 重试需要避免造成流量压力 对于链路闪断等原因导致的临时性故障,客户端进行一定的重试,可取得较好的效果;对于流量过载等原因导致的故障,重试可能会导致情况进一步恶化,因此需要避免这种影响。 风险等级 高 关键策略 客户端进行重试处理时,建议: 增加指数回退和抖动方法
RES04-03 容灾恢复过程自动化 由于容灾恢复场景涉及容灾站点的业务恢复、数据库的主备切换、业务到容灾站点的流量切换等,恢复过程比较复杂,因此需要提供容灾管理功能,实现容灾状态及RPO监控,以及灾难场景下的一键式自动切换,减少人工干预。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。
须遵守相关的法律法规和隐私保护准则,以确保数据转移活动符合法律规定并尊重数据主体的权利。 风险等级 高 关键策略 产品需评估是否存在将个人数据推送给第三方应用。评估是否存在高度敏感的用户数据在未获得用户明示同意便推送。同时应该对齐第三方应用,是否对共享的数据设置了合理的保护机制。
COST07-04 合理降配低负载资源或升配高负载资源 风险等级 中 关键策略 根据工作负载和资源特征选择合适的资源大小或类型。您可通过持续监控资源利用率,发现资源的利用率低于/高于阈值,选择降配或者升配资源来优化成本。 父主题: COST07 管理和优化资源