检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SLO 每年最大不可用时间 典型IT服务 99% 3.65天 批处理,后台任务,数据抽取 99.9% 8.76小时 内部知识管理系统,项目跟踪系统 99.95% 4.38小时 客户账户管理,信息管理 99.99% 52.56分钟 电商,B2B web服务,大流量媒体/内容网站
RES03-04 支持容灾管理 提供容灾管理功能,实现容灾状态及RPO监控,及异常场景下的业务切换。 风险等级 高 关键策略 实时监控容灾状态,了解容灾运行状态。 支持应用级数据校验,比较AZ间数据同步差异,监控及PO指标。 典型确定性故障场景下自动容灾或切换,无需人工接入,业务不受影响,满足RPO/RTO指标。
SEC05-04 密钥安全管理 密钥的安全管理对于整个工作负载的安全性至关重要。如果使用不恰当的密钥管理方式,强密码算法也无法保证系统的安全。密钥的安全管理包括密钥的生成、传输、使用、存储、更新、备份与恢复、销毁等完整的生命周期流程。 风险等级 高 关键策略 生成密钥: 分层管理密钥。最少把密
SEC05-05 证书安全管理 证书的常见用途包括传输数据的加密和系统间的身份认证场景。集中管理每个证书的用途、有效期等信息,并及时对证书替换。 风险等级 中 关键策略 集中管理证书: 建立中心化的证书管理系统,用于存储、跟踪和管理所有证书。 确保每个证书都有清晰的标识,包括用途、所有者、有效期等信息。
全生命周期性能管理 全生命周期性能管理围绕需求、设计、开发、测试与编护完整的软件生周期展开,将性能活动内化到生命周期流程中,实现性能工作的常态化。 PERF01-01 全生命周期性能管理 父主题: PERF01 流程与规范
应用运维管理(AOM2.0) 应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,融合云监控、云日志、应用性能、真实用户体验、后台链接数据等多维度可观测性数据源,提供应用资源统一管理、一站式可观测性分
COST02 实施预算规划管理机制 COST02-01 建立云预算与预测流程 COST02-02 精细化预算管理和跟踪 父主题: 成本优化支柱
OPS05 运维准备和变更管理 OPS05-01 进行生产准备度评审(Product Readiness Review) OPS05-02 进行变更风控 OPS05-03 定义变更流程 父主题: 卓越运营支柱
数据持久度 数据持久度是指数据不丢失的概率,即存储在预计周期内不出现数据丢失的概率,可以用于度量一个存储系统的可靠性。其只表示数据是否丢失的概率,不体现数据丢失多少;数据持久度的预计周期,一般按一年进行预计。 影响存储数据持久度的主要因子有:冗余数、磁盘失效率与数据修复时间。其中
即部署组之间的时间),以确保来自不同区域的用户或执行不同任务的用户有时间使用工作负载。间隔时间应以小时和天而不是分钟来衡量。每个部署组的间隔时间也应该增加,以便考虑不同的时区和使用模式。 相关云服务和工具 CodeArts Deploy 父主题: OPS04 自动化构建和部署流程
ServiceStage主要包含如下能力: 应用管理:支持应用生命周期管理、环境管理。 微服务应用接入:支持Java Chassis、Spring Cloud微服务框架。配合微服务引擎可实现服务注册发现、配置管理和服务治理,请参考微服务开发指南。 应用运维:通过日志、监控、告警支持应用运维管理。 父主题: 卓越运营云服务介绍
PERF01-01 全生命周期性能管理 风险等级 高 关键策略 指定性能目标 从性能角度来看,最好为性能场景定义具体的、量化的、可测量的性能目标。若要设置这些目标,需要充分了解业务要求以及预期将提供的服务质量。 需要与业务利益干系人共同关键功能的体验要求,而不是只关注技术指标。通
场景,验证应急恢复预案,从而加快恢复速度。 混沌工程度量指标 故障场景的覆盖率:分析故障场景的覆盖率,例如容灾场景覆盖 80%,过载场景覆盖 60%。 故障场景的命中率:分析故障场景中,真实发生的比率。 应急预案的质量:用于度量应急预案有效性和执行效率。 风险发现个数与等级:定期
使用数据加密服务DEW托管凭据。实现对数据库账号口令、服务器口令、SSH Key、访问密钥等各类型凭据的统一管理、检索与安全存储。 使用数据加密服务DEW中的凭据管理服务(CSMS)定期轮换凭证。 使用IAM委托。委托操作权限给云服务或者其它账号。 相关云服务和工具 数据加密服务
内部知识管理类应用典型部署架构(99.9%) 内部知识管理类应用通常用于内部操作,且在故障时只会对内部员工造成影响,可以承受较长的恢复时间和恢复点,其可用性目标通常要求达到99.9%,即每年中断时间可以为8.76小时。 导致业务中断的时间包含故障中断时间及由于升级配置维护等导致的中断时间,假定分别中断时间如下:
信息管理类应用典型部署架构(99.95%) 信息管理类应用通常用于内部操作,且在故障时只会对内部员工造成影响,可以承受一定的恢复时间和恢复点,其可用性目标通常要求达到99.95%,即每年故障时长可以为4.38小时。 假定故障中断与变更中断的时长分别如下: 故障中断:假定每年故障中
完成Pytorch NPU分布式训练任务,训练任务默认使用Volcano job形式下发到Lite资源池集群。详细步骤可参考最佳实践文档。 训练显存优化实践 pytorch的内存池基本管理策略 pytorch的内存池以block为粒度来进行管理,block池分为小内存池与大内存池
对于大型企业,涉及多账号统一安全管理和运营。集中收集来自多云环境、多账号和多云服务产品的日志、告警、配置、策略和资产数据等,提高安全运营和运维效率,实现企业的多账号与资源的统一管理。基于统一管理日志,可支持统一存储、统一分析、统一建模、统一威胁分析、统一编排响应、统一态势报告和统一安全策略管理等。 相关云服务和工具
企业组织采用企业主子多账号形式进行成本管理时,企业主子关系可以分为财务托管和财务独立两种。 财务托管模式下,企业主账号可以统一管理企业主+企业子的成本,包括统一成本分析、统一预算跟踪、统一异常监控、统一成本建议等,使用该模式可大幅提升管理效率。 财务独立模式下,企业主子各自管理各自账号下的成本,包
SEC02-04 一体化身份管理 在公司范围内构建统一的身份管理系统,统一管理私有云和公有云、公有云上多个账号的用户身份。 风险等级 中 关键策略 在公司范围内构建统一身份管理系统,集中存储用户身份信息。 统一身份管理系统与私有云、公有云平台的IAM系统进行身份联邦,统一身份管理系统中的用户身份可以同时访问私有云和公有云平台。