检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
件数/总变更数。 变更引入重大事件数定义:每月变更引入对客户产生重大影响的事件次数。 相关云服务和工具 COC 变更管理 父主题: OPS05 运维准备和变更管理
成本优化云服务介绍 成本中心是华为云免费向用户提供的云财务管理服务,可帮助您收集华为云成本和使用量的相关信息、探索和分析华为云成本使用情况、监控和跟踪华为云成本,及时了解云支出的趋势和动因,减少异常支出,持续成本优化。 费用中心为您提供财务信息、发票、合同、续费、退订和变更等服务
根据用户的角色和职责分配权限,确保用户只能访问其工作所需的资源。 相关云服务和工具 统一身份认证服务 IAM 父主题: SEC03 权限管理
/var/log/messages 中,根据关键字匹配硬件类告警,以便及时处理。 相关云服务和工具 应用运维管理 AOM 云运维中心 COC 云监控服务 CES 父主题: OPS07 进行故障分析和管理
对业务系统中其他组件的影响(如服务中断的影响、数据转移效率),这是具体实施业务上云过程中的重点关切。 业务应用场景的评估:如果是在云上新建业务系统,则要通过业务的实际需要进行云数据库的选型,它的评估与数据库是否建立在云上无关,而是根据实际业务系统的特点来决定的。如电商系统,考虑选
存,CDN服务的流量,数据库的TPS),按(天、周、月)等时间周期发现规律,对低利用率资源的应用/项目进行审查。 父主题: COST07 管理和优化资源
关键策略 Production Readiness Review 生产准备度评估基线:从SLI/SLO、可冗余、可容灾、可过载控制、可故障管理、可变更能力、可运维、安全生产等维度,对服务可用性及运维能力提出基线要求。在服务产品开发前端构筑能力,进行相关需求规划、设计和开发工作,并在服务上线前进行生产准入审视。
务表现和系统状态,以便在异常状态下尽早干预恢复,或定位改进系统缺陷。 风险等级 中 关键策略 关键指标需要与系统内工作负载的关键性能指标相关,并能确定为系统性能下降的早期警告信号,如系统处理的API数量及成功率,相比CPU利用率、内存利用率等基础指标,能更真实的指示系统性能问题。
串联模型:组成系统的所有单元中任一单元的故障都会导致整个系统故障的称为串联系统。 可靠性数学模型: 举例:假定系统存在2个串联单元,每个单元的可用度均为99.9%,则系统可用度为 Rs = 99.9% * 99.9% = 99.8%。 串联系统中系统可用度低于串联系统中任一单元的可用度。为提高系统可用度,设计时需考虑:
云安全治理策略 企业安全的最终目标不会随着采用云服务而改变,但实现这些目标的方式将会改变。为了安全地操作、管理您的工作负载,您必须对安全性的各个方面进行总体策略上的考虑。企业的管理层和安全团队需要根据企业总体安全战略和业务战略制定云安全战略,并且需要在计划采用云服务时尽早考虑安全性。
级;资源编排服务基于业界开放生态HCL语法模板,实现云服务资源的自动化批量构建,帮助用户高效、安全、一致创建、管理和升级云服务资源,能有效提升资源管理效率,并降低资源管理变更带来的安全风险。 父主题: 卓越运营云服务介绍
变更防差错 在系统的运行过程中,配置变更是导致生产系统不可用的重要风险之一,如配置修改、工作负载手工增缩或补丁安装等。当变更失败时,可能会导致性能下降或业务中断等严重的问题。因此为了降低变更带来的业务风险,需要为工作负载或其环境的更改做好准备,实现工作负载的可靠操作。 变更操作属
网络高可用 应用系统对外或对内通信都依赖于网络,一旦网络异常将会导致业务中断,因此网络架构的高可用及容灾能力至关重要。在进行网络设计时,需要充分考虑应用系统对内和对外的网络连接、IP地址管理和域名解析等。 华为云中网络高可用主要涉及三个场景: 公有云网络:构建应用系统相关的公网网络
RES03 跨AZ容灾 为了预防单可用区故障,可借助华为云多可用区(Availability Zone,简称AZ)能力,应用可以用较小成本来完成容灾架构部署。应用系统可设计为使用分布在多个可用区中的资源池,并利用云服务实例本身具备或应用自身支持的跨AZ数据复制与切换能力,在多个A
根据工作负载和资源特征选择合适的资源大小或类型。您可通过持续监控资源利用率,发现资源的利用率低于/高于阈值,选择降配或者升配资源来优化成本。 父主题: COST07 管理和优化资源
该架构的主要特点包括: 应用系统采用无状态应用+有状态数据库的分层部署架构。 应用系统在其他云与华为云中各部署一套完整系统;华为与采用跨AZ部署,可以实现云内应用层跨数据中心双活;云间数据单元化部署,并支持将它云数据实时同步到华为云,实现双活容灾,在第三方云故障的情况下能快速容灾切换到华为云。 接入
通过AOM助力系统运维能力提升,降低运维成本与难度 某平台服务的认证驾驶员用户1000万人,货主用户500万人,集团业务覆盖全国339个主要城市,覆盖线路数量超过11万条,实现了全国多中心运营的架构。 客户痛点: 多云双活场景运维难保障:大规模集群场景,单个云厂商灾备不足以保障业
识别系统的潜在威胁以建立防护策略,构建安全的系统。 安全风险 安全风险是指在面临安全威胁的情况下,系统、网络或数据可能遭受损害或丧失机密性、完整性或可用性的概率和影响程度。安全风险通常由威胁的存在、系统漏洞、不恰当的安全措施或其他因素造成。安全风险通常通过风险评估来评估和管理,以确定风险的程度并采取相应的控制措施。
RES04-01 定义应用系统的容灾目标RPO与RTO 在进行容灾设计前,需要根据应用系统的重要性,明确其容灾目标,通常以RPO和RTO指标来定义: RPO:允许的数据丢失量,与数据的周期性复制周期或连续性复制延时相关。 RTO:允许的业务恢复时长,即业务中断时长,与灾备端业务的部署与切换方式相关。
编码了流经分布式系统的端到端请求流。 风险等级 高 关键策略 当系统出现问题时,需要能够追踪系统中每个组件的行为和交互情况。通过在系统中实现分布式跟踪,可以快速定位问题并进行有效的故障排除。 设计建议 链路跟踪可以通过在系统中添加跟踪标识符来实现。当请求进入系统时,标识符将被添加