搜索_华为云

训练启动脚本说明和参数配置 - AI开发平台ModelArts

-size）的设置：需要遵循GBS/MBS的值能够被NPU/(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.911） > 训练脚本说明
发布ModelArts数据集中的数据版本 - AI开发平台ModelArts

发布ModelArts数据集中的数据版本 ModelArts在数据准备过程中，针对同一数据源的数据，对不同时间处理或标注后的数据，按照版本进行区分方便后续模型构建和开发时选择对应的数据集版本进行使用。关于数据集版本针对刚创建的数据集（未发布前），无数据集版本信息，必须执行发布操作后，才能应用于模型开发或训练。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
训练启动脚本说明和参数配置 - AI开发平台ModelArts

S/MBS的值能够被NPU/(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。若用户进行自

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。若用户进行自

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
ModelArts标注数据丢失，看不到标注过的图片的标签 - AI开发平台ModelArts

ModelArts标注数据丢失，看不到标注过的图片的标签原因是删除了默认的标注作业，导致标签被删除。父主题： Standard数据管理

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

创建分布式并行模型，每个进程都会有相同的模型和参数。创建数据分发Sampler，使每个进程加载一个mini batch中不同部分的数据。网络中相邻参数分桶，一般为神经网络模型中需要进行参数更新的每一层网络。每个进程前向传播并各自计算梯度。模型某一层的参数得到梯度后会马上进行通讯并进行梯度平均。各GPU更新模型参数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
基于ModelArts performance advisor插件的昇腾PyTorch性能调优步骤 - AI开发平台ModelArts

32G的分析环境）的notebook开发环境。在notebook中使用performance advisor插件进行性能分析，源数据选择OBS并指定profiling所在的OBS路径。由于pp参数为4，考虑到不同pp stage的计算量存在差异，advisor会自动对不同stag

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
使用ModelArts时提示“权限不足”，如何解决？ - AI开发平台ModelArts

限。其它权限不足的场景也可以参考本案例操作，只是授权范围不同。不同业务场景下的授权范围请参考权限依赖和委托章节。由于ModelArts的使用权限依赖OBS服务的授权，您需要为用户授予OBS的系统权限。如果您需要授予用户关于OBS的所有权限和ModelArts的基础操作权限，请参见配置基础操作权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > FAQ
Msprobe API预检 - AI开发平台ModelArts

或者对模型了解不多的情形下都推荐使用预检工具，检查第一个步骤或Loss明显出现问题的步骤。它可以抓取模型中API输入的数值范围，根据范围随机生成输入，用相同的输入分别在NPU（GPU）和CPU上执行算子，比较输出差异。预检最大的好处是，它能根据算子（API）的精度标准来比较输出结

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优 > Msprobe工具使用指导
Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

和worker会被调度到相同的机器上。由于训练数据对于ps没有用，因此在代码中ps相关的逻辑不需要下载训练数据。如果ps也下载数据到“/cache”，实际下载的数据会翻倍。例如只下载了2.5TB的数据，程序就显示空间不够而失败，因为/cache只有4TB的可用空间。处理方法在

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
Wav2Lip推理基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

907） Wav2Lip是一种基于对抗生成网络的由语音驱动的人脸说话视频生成模型。主要应用于数字人场景。不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频，还可以直接将动态的视频进行唇形转换，输出与输入语音匹配的视频，俗称“对口型”。该技术的主要作用就是在将音频与图片、音频与视频进行合成时，口型能够自然。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 数字人模型训练推理
Open-Sora 1.0基于DevServer适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

ork_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统，work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_dir为要挂载到的容器中的目录。为方便两个地址可以相同。 shm-size：共享内存大小，建议不低于80GB。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
ModelArts与其他服务的关系 - AI开发平台ModelArts

Notebook实例中的数据或代码文件存储在OBS中。训练模型训练作业使用的数据集存储在OBS中。训练作业的运行脚本存储在OBS中。训练作业输出的模型存储在指定的OBS中。训练作业的过程日志存储在指定的OBS中。 AI应用管理训练作业结束后，其生成的模型存储在OBS中，

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
调用MaaS部署的模型服务 - AI开发平台ModelArts

每个输出序列要生成的最大Tokens数量。 top_k 否 -1 Int 控制要考虑的前几个Tokens的数量的整数。设置为“-1”表示考虑所有Tokens。适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个Tokens的累积概率的浮点数。取值范围：0~1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
从AI Gallery订阅模型 - AI开发平台ModelArts

人分享的模型，订阅后的模型，可推送至ModelArts模型管理中，进行统一管理。订阅模型与云服务订阅模型的区别：在管理控制台，模型管理所在位置不同。订阅模型统一管理在“模型管理>订阅模型”页面中，而云服务订阅模型管理在“模型管理>云服务订阅模型”页面中。模型来源不同。订阅模型，模型来源于AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
在线服务运行中但是预测失败时，如何排查报错是不是模型原因导致的 - AI开发平台ModelArts

因导致的问题现象在线服务启动后，当在线服务进入到“运行中”状态后，进行预测，预测请求发出后，收到的响应不符合预期，无法判断是不是模型的问题导致的不符合预期。原因分析在线服务启动后，ModelArts提供两种方式的预测：方式1：在ModelArts的Console的预测页签进行预测；

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
通过Token认证的方式访问在线服务 - AI开发平台ModelArts

和预测时间有限制：请求体的大小不超过12MB，超过后请求会被拦截。因APIG（API网关）限制，平台每次请求预测的时间不超过40秒。前提条件已经获取用户Token、预测文件的本地路径、在线服务的调用地址和在线服务的输入参数信息。用户Token的获取请参见获取Token认

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。若用户进行自

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

S/MBS的值能够被NPU/(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明

总条数： 2334

上一页
1
...
10
11
12
...
117
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练启动脚本说明和参数配置 - AI开发平台ModelArts

发布ModelArts数据集中的数据版本 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

ModelArts标注数据丢失，看不到标注过的图片的标签 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

基于ModelArts performance advisor插件的昇腾PyTorch性能调优步骤 - AI开发平台ModelArts

使用ModelArts时提示“权限不足”，如何解决？ - AI开发平台ModelArts

Msprobe API预检 - AI开发平台ModelArts

Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

Wav2Lip推理基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

Open-Sora 1.0基于DevServer适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

ModelArts与其他服务的关系 - AI开发平台ModelArts

调用MaaS部署的模型服务 - AI开发平台ModelArts

从AI Gallery订阅模型 - AI开发平台ModelArts

在线服务运行中但是预测失败时，如何排查报错是不是模型原因导致的 - AI开发平台ModelArts

通过Token认证的方式访问在线服务 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线