搜索_华为云

各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

各个模型深度学习训练加速框架的选择 LlamaFactory框架使用两种训练框架： DeepSpeed和Accelerate都是针对深度学习训练加速的工具，但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架，主要针对大规模模型和大规模数据集的训练。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
模型训练存储加速 - AI开发平台ModelArts

图1 基于OBS+SFS Turbo的存储解决方案 OBS + SFS Turbo存储加速的具体方案请查看：面向AI场景使用OBS+SFS Turbo的存储加速实践。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
创建网络 - AI开发平台ModelArts
创建网络 - AI开发平台ModelArts

创建网络登录ModelArts管理控制台，在左侧导航栏中选择“AI专属资源池 > 弹性集群 Cluster”，进入“弹性集群 Cluster”页面。切换到“网络”页签，单击“创建”，弹出“创建网络”页面。图1 网络列表在“创建网络”弹窗中填写网络信息。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
网络调整公告 - AI开发平台ModelArts

网络调整公告 ModelArts针对网络进行安全加固和优化，新的网络模式可以为用户的资源提供更好的隔离性，提升云上资源的安全。为保障您的网络安全，建议您后续使用新网络创建Standard资源池。

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品变更公告
更新网络资源 - AI开发平台ModelArts

可选值如下： Creating：网络创建中 Active：网络正常 Abnormal：网络不正常 connectionStatus NetworkConnectionStatus object 网络与其他云服务连通状态信息。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
创建网络资源 - AI开发平台ModelArts

可选值如下： Creating：网络创建中 Active：网络正常 Abnormal：网络不正常 connectionStatus NetworkConnectionStatus object 网络与其他云服务连通状态信息。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查询网络资源 - AI开发平台ModelArts

可选值如下： Creating：网络创建中 Active：网络正常 Abnormal：网络不正常 connectionStatus NetworkConnectionStatus object 网络与其他云服务连通状态信息。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
训练网络迁移总结 - AI开发平台ModelArts

训练网络迁移总结确保算法在GPU训练时，持续稳定可收敛。避免在迁移过程中排查可能的算法问题，并且要有好的对比标杆。如果是NPU上全新开发的网络，请参考PyTorch迁移精度调优排查溢出和精度问题。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
删除网络资源 - AI开发平台ModelArts

可选值如下： Creating：网络创建中 Active：网络正常 Abnormal：网络不正常 connectionStatus NetworkConnectionStatus object 网络与其他云服务连通状态信息。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查询网络资源列表 - AI开发平台ModelArts

可选值如下： Creating：网络创建中 Active：网络正常 Abnormal：网络不正常 connectionStatus NetworkConnectionStatus object 网络与其他云服务连通状态信息。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
配置Lite Server网络 - AI开发平台ModelArts

配置Lite Server网络 Server创建后，需要进行网络配置，才可使其与Internet通信，本章节介绍网络配置步骤。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

路由加速的原理是改变rank编号，所以代码中对rank的使用要统一。将训练作业完成如下修改后，启动训练作业即可实现网络加速。将训练启动脚本中的“NODE_RANK="$VC_TASK_INDEX"”修改为“NODE_RANK="$RANK_AFTER_ACC"”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
配置Lite Cluster网络 - AI开发平台ModelArts

配置Lite Cluster网络本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档，您可以实现弹性云服务器访问公网的目的。使用华为云账号登录CCE管理控制台。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
离线训练安装包准备说明 - AI开发平台ModelArts

离线训练安装包准备说明申请的模型软件包一般依赖连通网络的环境。若用户的机器或资源池无法连通网络，并无法git clone下载代码、安装python依赖包的情况下，用户则需要找到已联网的机器（本章节以Linux系统机器为例）提前下载资源，以实现离线安装。用户可遵循以下步骤操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明参考
Lite Cluster资源配置流程 - AI开发平台ModelArts

配置流程图1 Lite Cluster资源配置流程图表1 Cluster资源配置流程配置顺序配置任务场景说明 1 配置Lite Cluster网络购买资源池后，需要弹性公网IP并进行网络配置，配置网络后可通过公网访问集群资源。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
释放Standard专属资源池和删除网络 - AI开发平台ModelArts

删除网络当AI业务开发不再需要使用网络时，您可以删除网络。请注意，删除网络会导致使用该网络的资源池网络不可用，请谨慎操作。在“网络”页签，单击某个网络操作列的“更多 > 删除”。确认删除，单击“确定”即可。父主题：管理Standard专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
特权池信息数据显示均为0%如何解决？ - AI开发平台ModelArts

问题现象特权池基本信息页面数据均显示为0%（如CPU使用率、内存使用率、加速卡使用率、加速卡显存使用率）。原因分析原因是集群没有安装ICAgent。新建特权池时默认会安装ICAgent，可能由于用户自行卸载ICAgent，导致资源池数据显示异常。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
使用CES监控Lite Server资源 - AI开发平台ModelArts

当前监控指标项已经包含CPU、内存、磁盘、网络。在主机上安装加速卡驱动后，可以自动采集的相关指标。此处表1仅展示NPU相关指标，其他指标项请参考CES Agent支持的指标列表。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
产品优势 - AI开发平台ModelArts
产品优势 - AI开发平台ModelArts

大规模分布式训练能力，加速大模型研发。提供高性价比国产算力。多年软硬件经验沉淀，AI场景极致优化。加速套件，训练、推理、数据访问多维度加速。

帮助中心 > AI开发平台ModelArts > 产品介绍
迁移Standard专属资源池和网络至其他工作空间 - AI开发平台ModelArts

网络工作空间迁移登录ModelArts管理控制台，选择“AI专属资源池 > 弹性集群Cluster”，切换到“网络”页签。在网络列表中，选择目标网络“操作 > 更多 > 工作空间迁移”。在弹出的“迁移网络”中，选择要迁移的“目标工作空间”，单击“确定”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池

总条数： 466

上一页
1
2
3
4
5
...
24
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

创建网络 - AI开发平台ModelArts

网络调整公告 - AI开发平台ModelArts

更新网络资源 - AI开发平台ModelArts

创建网络资源 - AI开发平台ModelArts

查询网络资源 - AI开发平台ModelArts

训练网络迁移总结 - AI开发平台ModelArts

删除网络资源 - AI开发平台ModelArts

查询网络资源列表 - AI开发平台ModelArts

配置Lite Server网络 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

配置Lite Cluster网络 - AI开发平台ModelArts

离线训练安装包准备说明 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

释放Standard专属资源池和删除网络 - AI开发平台ModelArts

特权池信息数据显示均为0%如何解决？ - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

产品优势 - AI开发平台ModelArts

迁移Standard专属资源池和网络至其他工作空间 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线