检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
OPS04 自动化构建和部署流程 OPS04-01 有效落地持续集成 OPS04-02 采用持续部署模型 OPS04-03 基础设施即代码 OPS04-04 自动化工程运维任务 父主题: 卓越运营支柱
路由规划加速最佳实践 ranktable路由规划是一种用于分布式并行训练中的通信优化能力,在使用NPU的场景下,支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划,进而提升节点之间的通信速度。本案例介绍如何在ModelArts Lite场景下使用ranktable路由规划完成Pytorch
首要的决策依据。 可迁移性:针对数据库上云迁移,解决方案要具备平滑迁移的能力;结合数据库迁移服务所提供的能力,评估迁移上云过程中,数据库的切换对业务系统中其他组件的影响(如服务中断的影响、数据转移效率),这是具体实施业务上云过程中的重点关切。 业务应用场景的评估:如果是在云上新建
故障快速恢复 当应用系统采用华为云服务的高可用设计时,在云服务实例发生故障后,云服务能自动检测和恢复;但对于应用系统本身的故障,需要应用系统自身进行检测和快速恢复处理,以保证系统能够正常运行,从而提高系统的可靠性和稳定性。 RES08 依赖减少与降级 RES09 故障重试 RES10
考虑平滑上云,上云前系统中数据库的选型已经过业务实践的检验,建议选取生态相同的关系型数据库服务进行平替,避免出现数据库层与应用层不兼容或数据库切换对业务架构中其他组件产生负面影响。 场景二:基于场景评估 如果是在云上新建业务系统或基于同数据库不同服务中选取时,建议结合业务的实际需要选
PERF06-03 自动告警 风险等级 中 关键策略 通过在云监控平台配置对应的告警策略,可以及时了解资源风险,以便做出对应调整和策略。 相关云服务和工具: 优化顾问 OA 云监控服务 CES 父主题: 性能看护
使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。 云监控服务主要具有以下功能: 自动监控:云监控服务不需要开通,在创建弹性云服务器等资源后监控服务会自动启动,您可以直接到云监控服务查看该资源运行状态并设置告警规则。 主机监控:通过在弹性云服务或裸金属服务器
的应用相比,应更经常、更彻底地审核占总成本 50% 的应用。优化时要考虑的另一个因素是实施更改的工作量。如果测试和验证变更的成本很高,优化的频率应该降低。您应该反方向考虑是否可以通过替身自动化测试和验证能力,从而进一步降低人力成本。 此外,由于成本优化带来可能带来的资源冗余度的下降,故而也应该综合考虑业务的趋势。
RES10-04 健康检查与自动隔离 对应用组件进行健康检查,当发现故障后进行主动隔离,避免故障扩散。 风险等级 高 关键策略 对系统内组件需要定期进行健康检查,以判断其状态是否正常。 对于异常组件,需要能支持自动隔离,避免对整体业务造成影响。 相关云服务和工具 弹性负载均衡器
每个部署组的间隔时间也应该增加,以便考虑不同的时区和使用模式。 相关云服务和工具 CodeArts Deploy 父主题: OPS04 自动化构建和部署流程
考虑平滑上云,上云前系统中数据库的选型已经过业务实践的检验,建议选取生态相同的关系型数据库服务进行平替,避免出现数据库层与应用层不兼容或数据库切换对业务架构中其他组件产生负面影响。 场景二:基于场景评估 如果是在云上新建业务系统或基于同数据库不同服务中选取时,建议结合业务的实际需要选取合适的数据库服务;例如RDS
过程将生成并暂存部署更新软件的资产。这些资产包括编译的代码和容器映像。 持续集成可以通过执行以下操作更快地交付高质量的软件: 针对代码运行自动化测试,以便尽早检测到重大更改。 运行代码分析以确保代码标准、质量和配置。 运行合规性和安全检查以确保软件不存在已知漏洞。 运行验收或功能测试以确保软件按预期运行。
序中,清楚地记录人工步骤,并实现标准化,以确保安全、一致地执行任务。 回收闲置资源:由于配置管理工具及其限制等原因,有时 IaC 工具无法自动删除资源。例如,假设需要从虚拟机迁移到 PaaS 服务,而 IaC 工具没有删除闲置资源的逻辑。如果忘记手动删除这些资源,这些资源可能会成
允许丢失数据量可以不同,即RPO不同;为了保证数据备份的RPO目标,需要采用定期自动备份,而不要依赖人工进行手工备份。 RES02-01 识别和备份应用中所有需要备份的关键数据 RES02-02 自动数据备份 RES02-03 定期进行备份数据恢复 父主题: 高可用设计
理规格或增加代理数量以扩展资源。 当磁盘使用率高时,可根据业务情况,修改实例存储空间支持更大存储空间。 当带宽使用率高时,可根据业务情况,变更规格以支持更大带宽。 应用层进行过载保护,保障优先业务的运行。 生产消息失败 检测:生产消息失败 恢复: 应用层进行重试,以应对暂时性故障;应用故障重试处理可参考“故障重试”。
RES11-03 长稳测试 基于用户使用场景构建业务模型,自动化构建覆盖系统容量规格70%的业务量,持续7*24小时进行长时间负载测试以评估系统稳定性。 风险等级 高 关键策略 模拟各种业务场景进行测试。 持续自动测试。 测试结果发生偏差时自动告警,以便及时定位和处理。 父主题: RES11
OPS06-07 通过可观测性指标引入自动化措施 风险等级 高 关键策略 可观测与自动化运维工具联动,实现自动化的故障检测、恢复及弹性伸缩等功能,进一步提升运维响应速度和准确性,降低人为干预带来的延误,甚至错误。 父主题: OPS06 可观测性体系
PERF06-02 性能劣化自动定界定位 风险等级 中 关键策略 通过建立的分层性能模型,判断系统是否会出现性能劣化的情况。当出现劣化事件时,需要通过自动化手段快速定位定界发现根因。可以通过应用模型建设三维的拓扑,把架构-空间-时间数据关联起来。这里面的关键是架构模型的建立及分层
胁建模的模型保持场景相关性,以确保全面评估系统的安全性。 自动化测试:利用工具自动执行常见或可重复的测试,以加快渗透测试的速度,并提高效率。 分析测试结果:对渗透测试结果进行深入分析,以确定系统性安全问题,并为进一步的自动化测试和开发者培训提供有用信息。 为构建者提供培训:提供培
回顾和审核的频率应该综合考虑多种因素,包括成本优化在企业或者组织中的重要性,测试和验证成本,应用的复杂性和优化变更的难易程度。同时,在每次回顾和审核时,持续改进流程,例如,通过降低测试和变更的成本从而提升整体的优化频率。最后,在云厂商新的服务、资源类型和配置推出后,也可以启动流程,对它们进行评估,以优化您的工作负载成本。