搜索_华为云

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

Megatron-DeepSpeed是一个基于PyTorch的深度学习模型训练框架。它结合了两个强大的工具：Megatron-LM和DeepSpeed，可在具有分布式计算能力的系统上进行训练，并且充分利用了多个GPU和深度学习加速器的并行处理能力。可以高效地训练大规模的语言模型。 Megatron-LM是

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
BF16和FP16说明 - AI开发平台ModelArts

欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与FP32相似的数值范围和稳定性，在大模型训练中提供了优势。而FP1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
BF16和FP16说明 - AI开发平台ModelArts

欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与FP32相似的数值范围和稳定性，在大模型训练中提供了优势。而FP1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
导出ModelArts数据集中的数据到AI Gallery - AI开发平台ModelArts

导出ModelArts数据集中的数据到AI Gallery 针对数据集中的数据，用户可以选中部分数据或者通过条件筛选出需要的数据，导出到AI Gallery。用户可以通过任务历史查看数据导出的历史记录。发布到AI Gallery中的数据集，可以设置是否公开，将数据集公开给其他人使用。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导出ModelArts数据集中的数据
自动学习训练后的模型是否可以下载？ - AI开发平台ModelArts

自动学习训练后的模型是否可以下载？不可以下载。但是您可以在AI应用管理页面查看，或者将此模型部署为在线服务。父主题： Standard自动学习

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习
在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

SFS（存放数据）+普通OBS桶（存放代码）”，采用分布式训练。当使用SFS+OBS的存储方案可以实现存储加速，该方案的端到端实践案例请参见面向AI场景使用OBS+SFS Turbo的存储加速实践。表1 不同场景所需服务及购买推荐场景 OBS SFS SWR DEW ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
编排Workflow - AI开发平台ModelArts

编排Workflow Workflow的编排主要在于每个节点的定义，您可以参考创建Workflow节点章节，按照自己的场景需求选择相应的代码示例模板进行修改。编排过程主要分为以下几个步骤。梳理场景，了解预置Step的功能，确定最终的DAG结构。单节点功能，如训练、推理等在ModelArts相应服务中调试通过。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
在Workflow中更新已部署的服务 - AI开发平台ModelArts

个是在线服务对象，此时在运行态通过开关的方式来控制部署/更新服务，如下图所示：在线服务开关默认关闭，节点走部署服务的流程；如果需要更新服务，则手动打开开关，选择相应的在线服务即可。进行服务更新时，需要保证被更新的服务所使用的模型与配置的模型名称相同。父主题：开发Workflow命令参考

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
查看ModelArts模型详情 - AI开发平台ModelArts

实时视频推理、大视频文件。创建时间模型的创建时间。描述模型的描述。操作部署：将模型发布为在线服务、批量服务或边缘服务。创建新版本：创建新的模型版本。参数配置除版本外，将默认选择上一个版本的配置信息，您可以对参数配置进行修改。删除：删除对应的模型。说明：如果模型的版本已经部署服务，需

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
SD1.5基于Lite Server适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

ascendcloud-aigc-6.3.904-xxx.tar.gz 文件名中的xxx表示具体的时间戳，以包的实际时间为准。获取路径：Support-E网站。说明：如果没有软件下载权限，请联系您所在企业的华为方技术支持下载获取。基础镜像西南-贵阳一：swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
Standard资源管理 - AI开发平台ModelArts

专属资源池支持打通用户的网络，在该专属资源池中运行的作业可以访问打通网络中的存储和资源。例如，在创建训练作业时选择打通了网络的专属资源池，训练作业创建成功后，支持在训练时访问SFS中的数据。专属资源池支持自定义物理节点运行环境相关的能力，例如GPU/Ascend驱动的自助升级，而公共资源池暂不支持。专属资源池有什么能力？

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
离线训练安装包准备说明 - AI开发平台ModelArts

在华为公有云平台，申请的资源一般要求连通网络。因此用户在准备环境时可以运行 scripts/install.sh 直接下载安装资源，或通过 Dockerfile 下载安装资源并构建一个新的镜像。若用户的机器或资源池无法连通网络，并无法git clone下载代码、安装python依赖包的情况下，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
Controlnet训练 - AI开发平台ModelArts

使用文本提示词可以生成一副精美的画作，然而无论再怎么精细地使用提示词来指导模型，也无法描述清楚人物四肢的角度、背景中物体的位置、光线照射的角度，使用Controlnet可以通过图像特征来为扩散模型的生成过程提供更加精细控制的方式。将Controlnet适配到昇腾卡进行训练，可以提高能效

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于Lite Server适配PyTorch NPU训练指导（6.3.908）
附录：微调训练常见问题 - AI开发平台ModelArts

容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True 将yaml文件中的per_device_tr

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
查看训练作业资源占用情况 - AI开发平台ModelArts

如何判断训练作业资源利用率高低在模型训练的训练作业列表页可以查看作业资源利用率情况。当作业worker-0实例的GPU/NPU的平均利用率低于50%时，在训练作业列表中会进行告警提示。图2 作业列表显示作业资源利用率情况此处的作业资源利用率只涉及GPU和NPU资源。作业worker-0实例的GPU/NP

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
指令监督微调训练任务 - AI开发平台ModelArts

指定每个设备的训练批次大小 gradient_accumulation_steps 8 指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可根据自己要求适配 num_train_epochs 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
LLaVA-NeXT基于Lite Server适配PyTorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

需修改finetune_onevision_ascend.sh中的数据集和模型路径为步骤七和步骤八的下载完成后的路径路径修改说明：执行训练脚本前，需修改pretrain_clip_ascend.sh中的数据集和模型路径为步骤七和步骤八的下载完成后的路径，如图1所示；执行训练脚本前，修改fin

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
镜像方案说明 - AI开发平台ModelArts

镜像方案说明准备大模型训练适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。基础镜像地址本教程中用到的训练的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本训练基础镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
执行微调训练任务 - AI开发平台ModelArts

per_device_train_batch_size 1 指定每个设备的训练批次大小 gradient_accumulation_steps 8 可修改。指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可根据自己要求适配。取值可参考表1中梯度累积值列。 num_train_epochs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
训练作业运行失败排查指导 - AI开发平台ModelArts

sm_70'”。原因：训练作业使用的镜像CUDA版本只支持sm_37、sm_50、sm_60和sm_70的加速卡，不支持sm_80。处理建议：使用自定义镜像创建训练作业，并安装高版本的cuda以及对应的PyTorch版本。查看训练作业的“日志”，出现报错“ERROR:root:label_map

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败

总条数： 1581

上一页
1
2
3
4
5
...
80
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

导出ModelArts数据集中的数据到AI Gallery - AI开发平台ModelArts

自动学习训练后的模型是否可以下载？ - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

编排Workflow - AI开发平台ModelArts

在Workflow中更新已部署的服务 - AI开发平台ModelArts

查看ModelArts模型详情 - AI开发平台ModelArts

SD1.5基于Lite Server适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

Standard资源管理 - AI开发平台ModelArts

离线训练安装包准备说明 - AI开发平台ModelArts

Controlnet训练 - AI开发平台ModelArts

附录：微调训练常见问题 - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

指令监督微调训练任务 - AI开发平台ModelArts

LLaVA-NeXT基于Lite Server适配PyTorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

执行微调训练任务 - AI开发平台ModelArts

训练作业运行失败排查指导 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线