搜索_华为云

人工智能性能优化 - 云架构中心

人工智能性能优化 1.训练优化模型性能提升实践参数调优策略：调整模型flash attention、并行切分策略、micro batch size、重计算策略等参数。尽可能充分利用显存和算力，通过参数调优，初步优化性能。性能拆解参数调优后性能仍然与转商目标有较大的差距，需

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > 云服务性能优化介绍
RES15-01 自动化部署和升级 - 云架构中心

RES15-01 自动化部署和升级部署和升级过程由代码实现，以固化部件间依赖、安装和配置过程，减少人工错误。风险等级高关键策略部署和升级过程自动化完成。父主题： RES15 升级不中断业务

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES15 升级不中断业务
RES15-03 自动化回滚 - 云架构中心

RES15-03 自动化回滚在升级或部署过程中出现异常，或检查/测试失败时，支持自动回滚，减少人工干预，避免回滚失败。风险等级高关键策略检测到异常后，可一键式回滚。回滚过程自动化完成。父主题： RES15 升级不中断业务

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES15 升级不中断业务
RES03-04 支持容灾管理 - 云架构中心

实时监控容灾状态，了解容灾运行状态。支持应用级数据校验，比较AZ间数据同步差异，监控及PO指标。典型确定性故障场景下自动容灾或切换，无需人工接入，业务不受影响，满足RPO/RTO指标。典型亚健康故障场景，支持业务降级或主动切换，业务不持续受损。相关云服务和工具多活高可用服务

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES03 跨AZ容灾
RES04-03 容灾恢复过程自动化 - 云架构中心

状态及RPO监控，以及灾难场景下的一键式自动切换，减少人工干预。风险等级高关键策略实时监控容灾状态，了解容灾运行状态。支持应用级数据校验，比较AZ间数据同步差异，监控及PO指标。灾难场景下的一键式自动切换，减少人工干预，满足RPO/RTO指标。支持容灾恢复流程编排、容灾演练等功能。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES04 跨Region/跨云容灾
RES15-02 自动化检查 - 云架构中心

RES15-02 自动化检查在部署或升级过程中集成基本测试功能，实现自动化检查，无需人工参与。风险等级高关键策略在部署或升级过程中集成基本测试功能，在部署或升级完成后自动进行检查和测试，以验证新部署的代码功能是否正确。在部署或升级过程中集成故障注入测试功能，在部署或升

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES15 升级不中断业务
PERF03-02 选择合适规格的虚拟机和容器节点 - 云架构中心

服务器资源就类似一块块资源拼成的木桶，其最多能承载的业务需求取决于哪一块资源最先达到瓶颈。不同应用对资源需求不同，例如：功耗密集型业务（如高性能计算、人工智能、深度学习等场景）主要就是消耗计算维度的容量。内存密集型业务（如大数据处理、图像/视频处理、游戏开发、数据库等场景）主要消耗内存和存储维度的容量。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF03 性能建模 > 选择合适的计算资源
OPS04-04 自动化工程运维任务 - 云架构中心

大限度地减少人为错误。为了最大限度地提高自动化投资的价值，优先考虑简单、程序化且长期的任务。应用自动化并不是一种全有或全无的策略。即使需要人工干预的工作流(例: 决策点)，也可以从自动化中受益。风险等级高关键策略优先考虑从自动化中受益最多的任务：专注于高度程序化且容易出

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS04 自动化构建和部署流程
RES13-01 采用自动弹性扩缩容 - 云架构中心

OBS、SFS、FunctionGraph等服务会根据请求量自动扩展业务处理能力，用户无感知。 RDS服务最多支持5个只读副本，可在线扩展只读负载；一键规格变更实现CPU、内存扩容/缩容；在线存储容量扩容。 CCE服务支持配置自动扩容集群节点和工作负载，伸缩策略支持告警（按CPU或内存使用率触发）、定时、周期多种方式。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 过载控制 > RES13 过载保护
OPS04-03 基础设施即代码 - 云架构中心

装复杂的配置或资源组合。此外，在开发新模块时非敏感场景可以适当使用开源模块。标准化人工步骤：如果存在与部署和维护相关的人工步骤，要尽可能减少这类活动。在运维指南和标准操作程序中，清楚地记录人工步骤，并实现标准化，以确保安全、一致地执行任务。回收闲置资源：由于配置管理工具及其限制等原因，有时

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS04 自动化构建和部署流程
云服务性能优化介绍 - 云架构中心

云服务性能优化介绍缓存性能优化消息队列性能优化 Serverless性能优化数据库性能优化人工智能性能优化大数据性能优化父主题：性能效率支柱

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱
RES14-02 自动化变更 - 云架构中心

定义变更模板、审批变更流程、自动化测试和验证等，减少人工错误和延迟。进行变更评估和风险管理：评估变更影响范围，识别潜在风险和冲突，并采取相应的措施进行风险管理。自动化测试和验证：验证变更的正确性以及性能、可靠性影响，减少人工测试的错误和延迟。监控和审计变更过程：追踪和记录变

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 变更防差错 > RES14 配置防差错
RES02 备份 - 云架构中心
RES02 备份 - 云架构中心

近一个备份时间点相关；不同类型的数据，允许丢失数据量可以不同，即RPO不同；为了保证数据备份的RPO目标，需要采用定期自动备份，而不要依赖人工进行手工备份。 RES02-01 识别和备份应用中所有需要备份的关键数据 RES02-02 自动数据备份 RES02-03 定期进行备份数据恢复

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计
RES06-03 支持亚健康检测 - 云架构中心

效，系统首先会因为Swap Memory不足变得运行缓慢，消耗内存量持续增加，因此通过监控实例内的内存占用率，在超过阈值的情况下及时告警，人工介入迅速恢复，可避免造成业务中断。典型的亚健康场景有：通信链路丢包/错包、硬盘性能下降、CPU/内存过载等，当应用系统内组件出现亚健康时

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 故障全面检测 > RES06 故障检测
OPS06-01 建立可观测性体系 - 云架构中心

下图所示案例，在故障恢复 MTTR 的逻辑中，当业务发生故障，从故障发现、到故障定级和影响面分析、再到故障定界定位和故障恢复，几乎全部依赖人工处理。要想缩短时间，本质上是监控即发现、监控即定级、监控系统定界、定界即恢复——如果能达成这样的设计就能够形成 MTTR 的最短路径。父主题：

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 卓越运营支柱 > OPS06 可观测性体系
RES03-01 集群跨AZ部署 - 云架构中心

对于有状态ECS实例，或BMS实例，建议从应用层实现跨AZ容灾，支持跨AZ自动切换或通过容灾管理工具实现自动化容灾切换，减少灾难发生时的人工操作。对于已部署的应用系统改造为跨AZ实例的实施步骤：确定应用系统的关键组件；所谓关键组件是指一旦故障，会导致整个应用系统或其中的关键功能受损。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 高可用设计 > RES03 跨AZ容灾
SEC10-03 自动化响应安全事件 - 云架构中心

人机协作：安全分析师审查自动化分析的结果，必要时进行手动分析，以确认事件的严重性和后续步骤。决策支持：基于分析结果，决定是否需要进一步的人工介入，或是调整自动化响应策略。自动化恢复：对于已解决的事件，自动化执行系统恢复、数据恢复或服务重启。生成报告：自动化生成事件处理报告，

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 安全性支柱 > 安全运营 > SEC10 安全事件响应
PERF02-02 容量规划 - 云架构中心

到多种因素，包括市场趋势、消费者行为、竞争环境等。通过多种方法的组合，如历史数据分析、资源分析、趋势分析等，以此作为预测需求的基础，并结合人工智能机器学习算法，以便更准确地预测未来的需求，评估工作负载的资源需求。使预测与工作负载目标保持一致为了确保预测与工作负载目标保持一致，

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 性能效率支柱 > PERF02 性能规划 > 性能规划
可用度及SLO - 云架构中心
可用度及SLO - 云架构中心

9%，则关键依赖组件SLO目标要求达到99.99%。应用系统SLO分解：综合系统SLO、故障频次、云服务SLA，分解得出应用组件的中断时长要求，进一步分解得出故障检测、人工介入、干预恢复的时长要求。针对应用系统内薄弱环节进行增强：当云服务SLA无法满足要求时，需要应用层进行额外的保护和增强。通过冗余提升

 帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 韧性支柱 > 基本概念 > 可用性目标定义
COST08-02 云原生架构改造 - 云架构中心

从而降低运维成本。广告电商等在线作业服务SLA要求较高，高峰时段明显，使用资源存在潮汐现象；大数据/转码等离线作业容错性高，计算需求大，可容忍较高的时延。为了保证在线业务的性能和稳定性，通常按波峰时需要申请资源，这样在非波峰时段就有资源浪费。将在线离线业务混合部署，可有效提升整体利用率。

帮助中心 > 云架构中心 > 卓越架构技术框架与实践 > 成本优化支柱 > COST08 进行架构优化

总条数： 38

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

人工智能性能优化 - 云架构中心

RES15-01 自动化部署和升级 - 云架构中心

RES15-03 自动化回滚 - 云架构中心

RES03-04 支持容灾管理 - 云架构中心

RES04-03 容灾恢复过程自动化 - 云架构中心

RES15-02 自动化检查 - 云架构中心

PERF03-02 选择合适规格的虚拟机和容器节点 - 云架构中心

OPS04-04 自动化工程运维任务 - 云架构中心

RES13-01 采用自动弹性扩缩容 - 云架构中心

OPS04-03 基础设施即代码 - 云架构中心

云服务性能优化介绍 - 云架构中心

RES14-02 自动化变更 - 云架构中心

RES02 备份 - 云架构中心

RES06-03 支持亚健康检测 - 云架构中心

OPS06-01 建立可观测性体系 - 云架构中心

RES03-01 集群跨AZ部署 - 云架构中心

SEC10-03 自动化响应安全事件 - 云架构中心

PERF02-02 容量规划 - 云架构中心

可用度及SLO - 云架构中心

COST08-02 云原生架构改造 - 云架构中心

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线