搜索_华为云

训练启动脚本说明和参数配置 - AI开发平台ModelArts

S/MBS的值能够被NPU/(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
断点续训和故障快恢说明 - AI开发平台ModelArts

如果用户指定${user_converted_ckpt_path} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${output_dir}/saved_checkpoints（加载故障快恢路径）必须为空，否则此参数无效断点续训失效。如果就是使用最新的训练权重进行断点续训（暂停+启动场景），那么可以同时指定train_auto_resume

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.5.901） > 训练脚本说明
断点续训和故障快恢说明 - AI开发平台ModelArts

如果用户指定${user_converted_ckpt_path} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${output_dir}/saved_checkpoints（加载故障快恢路径）必须为空，否则此参数无效断点续训失效。如果就是使用最新的训练权重进行断点续训（暂停+启动场景），那么可以同时指定train_auto_resume

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.5.901） > 训练脚本说明参考
断点续训和故障快恢说明 - AI开发平台ModelArts

如果用户指定${user_converted_ckpt_path} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${output_dir}/saved_checkpoints（加载故障快恢路径）必须为空，否则此参数无效断点续训失效。如果就是使用最新的训练权重进行断点续训（暂停+启动场景），那么可以同时指定train_auto_resume

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.5.901） > 训练脚本说明
断点续训和故障快恢说明 - AI开发平台ModelArts

如果用户指定${user_converted_ckpt_path} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${output_dir}/saved_checkpoints（加载故障快恢路径）必须为空，否则此参数无效断点续训失效。如果就是使用最新的训练权重进行断点续训（暂停+启动场景），那么可以同时指定train_auto_resume

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
断点续训和故障快恢说明 - AI开发平台ModelArts

如果用户指定${user_converted_ckpt_path} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${output_dir}/saved_checkpoints（加载故障快恢路径）必须为空，否则此参数无效断点续训失效。如果就是使用最新的训练权重进行断点续训（暂停+启动场景），那么可以同时指定train_auto_resume

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
复制、停止或删除训练作业 - AI开发平台ModelArts

练作业设置的参数，您仅需在原来的基础上进行修改即可重新创建训练作业。停止训练作业在训练作业列表中，针对“创建中”、“等待中”、“运行中”的训练作业，您可以单击“操作”列的“终止”，停止正在运行中的训练作业。训练作业停止后，ModelArts将停止计费。运行结束的训练作业，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

在假定是Ring算法的情况下计算出来的。计算公式是有假设的：总线带宽 = 算法带宽 * 2 ( N-1 ) / N ，算法带宽 = 数据量 / 时间但是这个计算公式的前提是用Ring算法，Tree算法的总线带宽不可以这么计算。如果Tree算法算出来的总线带宽相当于是相对R

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
推理性能测试 - AI开发平台ModelArts

静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景能模拟实际业务下动态的发送不同长度请求，能评估推理框架在实际业务中能支持的并发数。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
使用ma-cli obs-copy命令复制OBS数据 - AI开发平台ModelArts

使用ma-cli obs-copy命令复制OBS数据使用ma-cli obs-copy [SRC] [DST]可以实现本地和OBS文件或文件夹的相互复制。 $ma-cli obs-copy -h Usage: ma-cli obs-copy [OPTIONS ] SRC DST

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
多模态模型推理性能测试 - AI开发平台ModelArts

静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-xxx.zip的llm_tools/llm_evaluation目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
多模态模型推理性能测试 - AI开发平台ModelArts

静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-xxx.zip的llm_tools/llm_evaluation目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理性能测试
多模态模型推理性能测试 - AI开发平台ModelArts

静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-xxx.zip的llm_tools/llm_evaluation目录下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理性能测试
断点续训和故障快恢说明 - AI开发平台ModelArts

如果用户指定${user_converted_ckpt_path} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${output_dir}/saved_checkpoints（加载故障快恢路径）必须为空，否则此参数无效断点续训失效。如果就是使用最新的训练权重进行断点续训（暂停+启动场景），那么可以同时指定train_auto_resume

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.5.901） > 训练脚本说明参考
断点续训和故障快恢说明 - AI开发平台ModelArts

如果用户指定${user_converted_ckpt_path} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${output_dir}/saved_checkpoints（加载故障快恢路径）必须为空，否则此参数无效断点续训失效。如果就是使用最新的训练权重进行断点续训（暂停+启动场景），那么可以同时指定train_auto_resume

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

-size）的设置：需要遵循GBS/MBS的值能够被NPU/(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
在JupyterLab中使用TensorBoard可视化作业 - AI开发平台ModelArts

ard可视化工具。TensorBoard是TensorFlow的可视化工具包，提供机器学习实验所需的可视化功能和工具。TensorBoard能够有效地展示训练过程中的计算图、各种指标随时间的变化趋势以及训练中使用到的数据信息，相关概念请参考TensorBoard官网。 Tenso

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

ication.py” ，此处的“demo-code”为用户自定义的OBS存放代码路径的最后一级目录，可以根据实际修改。资源池：选择专属资源池。类型：选择驱动/固件版本匹配的专属资源池Ascend规格。作业日志路径：设置为OBS中存放训练日志的路径。例如：“obs://te

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

准备权重获取对应模型的权重文件，获取链接参考表1。权重文件下载有如下几种方式，但不仅限于以下方式：方法一：网页下载：通过单击表格中权重文件获取地址的访问链接，即可在模型主页的Files and Version中下载文件。方法二：huggingface-cli：huggingface-cli是

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作
创建数据集版本 - AI开发平台ModelArts

为数据集创建新的版本。 dataset.create_version(name=None, version_format=None, label_task_type=None, label_task_id=None, **kwargs) 示例代码示例一：为数据集创建新的版本 from

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集版本管理

总条数： 839

上一页
1
...
31
32
33
...
42
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练启动脚本说明和参数配置 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

复制、停止或删除训练作业 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

使用ma-cli obs-copy命令复制OBS数据 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

在JupyterLab中使用TensorBoard可视化作业 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

创建数据集版本 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线