检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
OPS08-01 使用度量指标衡量运营目标 风险等级 高 关键策略 定义清晰的运营成功的目标和 KPI,设置基线作为参考点并定期重新评估。与业务领导者和利益相关者确定服务的总体目标。确定各个运营团队的任务以及可能面临的挑战。并明确运营目标的关键绩效指标 (KPI),可能是客户满意度、TTM、平均问题解决时间等等。根据
华为云的客户在注册账号后,每个账号下可以创建多个IAM用户。 对于大型企业的客户,可能会管理多个账号,这些账号可以被统一管理。客户可通过一个企业主账号结合多个企业子账号来统一管理账号。 主账号与子账号中都可以再创建更小层级的IAM用户,这些IAM用户分别属于对应的账号,可以帮助账号管理资源。
概述 本章节介绍常用云服务的可靠性功能与故障模式,以便应用系统能充分利用云服务提供的可靠性能力,提升应用系统的可靠性,并能针对云服务的常见故障模式,进行故障恢复处理,以便最大限度减少故障,并能从故障中恢复。 父主题: 云服务可靠性介绍
赖关系非常弱,它们可以独立地进行修改和扩展,而不影响其他组件;系统更加灵活,易于维护和升级,并且稳定性和可靠性也更强。 风险等级 中 关键策略 组件之间通过消息队列、消息缓存、负载均衡器等交互(即松耦合关系),可一定程度上屏蔽组件的状态变化,防止对其他组件造成影响 相关云服务和工具
有助于客户端在请求失败时,通过重复消息来获得预期的结果,避免业务失败,但也会消耗更多的服务器时间来获取所需的成功响应。 风险等级 高 关键策略 请求超时,可能是链路闪断或其他临时性故障导致消息丢失,可以进行重试。 根据错误响应码进行有针对性的重试;对于临时性故障,如错误码指示为系
RES15-02 自动化检查 在部署或升级过程中集成基本测试功能,实现自动化检查,无需人工参与。 风险等级 高 关键策略 在部署或升级过程中集成基本测试功能,在部署或升级完成后自动进行检查和测试,以验证新部署的代码功能是否正确。 在部署或升级过程中集成故障注入测试功能,在部署或升
COST06-03 跟踪并监控权益商品的使用情况 风险等级 低 关键策略 客户购买资源包等权益商品时,应定时跟踪资源包的使用情况,若资源包到期或用尽应及时续购,资源包覆盖不足应及时增购,资源包使用过少则应在资源包到期后续购合适大小的资源包,避免浪费。 相关服务和工具 华为云成本中
COST07-03 考虑不同的云资源技术选型 风险等级 中 关键策略 定期咨询专家或 华为 合作伙伴,以便确定哪些服务和功能的成本更低。查看华为博客和其他信息源。如在非计算密集型场景,使用华为云的云耀系列服务器取代普通ECS服务器 父主题: COST07 管理和优化资源
SEC10-05 建立复盘机制 建立安全事件复盘机制可以帮助团队从过去的安全事件中学习经验教训,并改进未来的安全措施。 风险等级 中 关键策略 确定复盘的目的:在进行复盘之前,明确目的是非常重要的。确定您希望从这次安全事件中学到什么,以及如何改进未来的安全措施。 收集事实和数据:
COST08-03 存算分离 风险等级 中 关键策略 传统大数据方案计算和存储融合部署,扩容磁盘时必须扩容计算节点,在实际使用时产生浪费。存算分离是一种数据处理技术,它将数据存储和数据处理(计算)分开,使得存储和计算可以独立地进行优化和扩展,这种技术提高数据处理的效率、降低成本并满足大规模数据存储和分析的需求。
OPS01-01 建立持续学习和改进的文化 风险等级 高 关键策略 由于系统的独特性和复杂性,没有放之四海皆准的方案,为了达到卓越运营,需要不断改进这些最佳实践,并建立自己的最佳实践。所以,在所有最佳实践的第一条,就是在您的团队中培养持续学习和改进的文化。 而持续学习和改进需要鼓
OPS06-07 通过可观测性指标引入自动化措施 风险等级 高 关键策略 可观测与自动化运维工具联动,实现自动化的故障检测、恢复及弹性伸缩等功能,进一步提升运维响应速度和准确性,降低人为干预带来的延误,甚至错误。 父主题: OPS06 可观测性体系
识别工作负载内的数据 通过业务流程、数据流动方向、数据分布、数据的所有者等维度,对照合规要求评估数据的敏感度,对数据分级分类。 风险等级 高 关键策略 遵循以下步骤梳理、识别数据: 业务流程分析。 了解业务流程,对照业务流程图,明确在各个环节中产生、处理和存储的数据类型和用途。 与业务部
数据收集合规性是指数据控制者在收集个人数据时需遵守相关的法律法规和隐私保护准则,确保数据收集活动符合法律规定并尊重数据主体的权利。 风险等级 高 关键策略 收集个人数据必须获得数据主体授权。 收集敏感个人数据必须获得数据主体明示同意。 个人数据收集范围、使用目的、处理方式不得超出隐私声明,且遵循最小化原则。
业务中部分Topic的流量远大于其他Topic,会导致节点间的数据不均衡。 生产者发送消息时指定了分区,未指定的分区没有消息,会导致分区间的数据不均衡。 生产者发送消息时指定了消息Key,按照对应的Key发送消息至对应的分区,会导致分区间的数据不均衡。 系统重新实现了分区分配策略,但策略逻辑有问题,会导致分区间的数据不均衡。
COST06-01 了解云上不同计费模式的特点 风险等级 高 关键策略 云服务存在按需、包年包月、资源包、竞价实例等多种计费模式,不同的计费模式有着不同的适用场景。企业或者组织需要根据自己的需要,了解不同计费模式的特点,合理选择各种计费模式来适配不同的业务形态和降低费率,实现成本节省。
OPS04-01 有效落地持续集成 风险等级 高 关键策略 持续集成是一种软件开发实践,开发人员使用它定期将软件更新集成到源代码控制系统中。当工程师向代码仓提交代码时,持续集成过程就开始了。理想情况下,集成过程会根据多个基线和测试来验证代码。然后,它向提交者提供有关这些测试状态的
OPS07-02 创建监控看板 风险等级 高 关键策略 监控看板为您提供自定义查看监控数据的功能,将您关注的核心服务监控指标集中呈现在一张监控看板里,为您定制一个立体化的监控平台。同时监控看板还支持在一个监控项内对不同服务、不同维度的数据进行对比查看,实现不同云服务间性能数据对比查看。
概述 本章节以典型Web应用为例,介绍不同可用性目标要求下部署的典型架构示例。针对每种场景,从以下几个维度进行设计,来达成可用性目标。 类别 应用可用性影响 冗余 应用内组件的高可用能力,在应用内部分节点故障时业务自动恢复能力 备份 应用数据被破坏的情况下的恢复能力 容灾 在Re
通过AOM助力系统运维能力提升,降低运维成本与难度 某平台服务的认证驾驶员用户1000万人,货主用户500万人,集团业务覆盖全国339个主要城市,覆盖线路数量超过11万条,实现了全国多中心运营的架构。 客户痛点: 多云双活场景运维难保障:大规模集群场景,单个云厂商灾备不足以保障业