搜索_华为云

图模式 - AI开发平台ModelArts
图模式 - AI开发平台ModelArts

会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务。另外，当启动服务时的模型或者参数发生改变时，请删除

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
训练脚本说明 - AI开发平台ModelArts

训练脚本说明 Yaml配置文件参数配置说明模型NPU卡数、梯度累积值取值表各个模型训练前文件替换 NPU_Flash_Attn融合算子约束 BF16和FP16说明录制Profiling 父主题：主流开源大模型基于Lite Server适配LlamaFactory PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
训练脚本说明 - AI开发平台ModelArts

训练脚本说明 Yaml配置文件参数配置说明模型NPU卡数、梯度累积值取值表各个模型训练前文件替换 NPU_Flash_Attn融合算子约束 BF16和FP16说明录制Profiling 父主题：主流开源大模型基于Lite Server适配LlamaFactory PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

json文件中的图片路径为数据集相对路径，例如qwenvl_dataset/new_single_bar/Chongqing.jpeg。上传数据集至OBS 准备数据集。在创建OBS桶创建的桶下创建文件夹用以存放数据，例如在桶standard-qwenvl-7b中创建文件夹training_data。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作
用户自定义镜像自建的conda环境会查到一些额外的包，影响用户程序，如何解决？ - AI开发平台ModelArts

modelarts.pth 执行如下命令删除用户使用的python环境中的modelarts.pth文件。 # /xxx/modelarts.pth 指用户通过第一步查出来的文件路径 rm -rf /xxx/modelarts.pth 父主题：自定义镜像故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
停止计费 - AI开发平台ModelArts
停止计费 - AI开发平台ModelArts

自动学习：停止因运行自动学习作业而创建的训练作业和在线服务。删除存储到OBS中的数据及OBS桶。 Workflow：停止因运行Workflow作业而创建的训练作业和在线服务。删除存储到OBS中的数据及OBS桶。 Notebook：删除Notebook实例。删除存储到OBS中的数据及OBS桶。停止Not

帮助中心 > AI开发平台ModelArts > 计费说明
训练参数配置说明【旧】 - AI开发平台ModelArts

/home/ma-user/ws/save_dir/llama2-70B_sft_lora_4096 【必改】。训练任务结束生成日志及权重文件目录。根据实际情况决定 SHELL_FOLDER $(dirname $(readlink -f "$0")) 表示执行脚本时的路径。 MODEL_NAME

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
训练参数配置说明【旧】 - AI开发平台ModelArts

/home/ma-user/ws/save_dir/llama2-70B_sft_lora_4096 【必改】。训练任务结束生成日志及权重文件目录。根据实际情况决定 SHELL_FOLDER $(dirname $(readlink -f "$0")) 表示执行脚本时的路径。 MODEL_NAME

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

fork/exec /home/ma-user/modelarts/bin/detect/ascend_check: no such file or directory" file="ascend_check.go:56" Command=bootstrap/run Component=ma-training-toolkit

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
使用kv-cache-int8量化 - AI开发平台ModelArts

th kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
资源选择推荐 - AI开发平台ModelArts

t1），存储方案使用“OBS的并行文件系统（存放数据和代码）”。单机多卡：中等数据量（50G左右训练数据）、中等算力场景（8卡Vnt1），存储方案使用“SFS（存放数据和代码）”。多机多卡：大数据量（1T训练数据）、高算力场景（4台8卡Vnt1），存储方案使用“SFS（存放数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
通过JupyterLab在线使用Notebook实例进行AI开发 - AI开发平台ModelArts

JupyterLab常用功能介绍在JupyterLab使用Git克隆代码仓在JupyterLab中创建定时任务上传文件至JupyterLab 下载JupyterLab文件到本地在JupyterLab中使用MindInsight可视化作业在JupyterLab中使用TensorBoard可视化作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
查看日志和性能 - AI开发平台ModelArts

打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应修改重要参数表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
查看日志和性能 - AI开发平台ModelArts

节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件。查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
在ModelArts中使用Moxing复制数据时如何定义路径变量？ - AI开发平台ModelArts

在ModelArts中使用Moxing复制数据时如何定义路径变量？问题描述 mox.file.copy_parallel(src_obs_dir=input_storage,'obs://dyyolov8/yolov5_test/yolov5-7.0/datasets'), m

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
使用kv-cache-int8量化 - AI开发平台ModelArts

th kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能，不需要此json文件，此时scale系数默认为1，但是可能会造成精度下降。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
tensorboard显示502 bad gateway - AI开发平台ModelArts

ry目录过大，导致tensorboard加载summary导致OOM。处理方法检查summary目录是否存在其他文件，如有请删除。检查summary目的文件是否过大（比如大于5GB），如果有请减小summary。父主题： OBS操作相关故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

选择OBS桶中训练code文件夹所在路径，例如“obs://test-modelarts/code/”。启动命令输入镜像的Python启动命令，例如： bash ${MA_JOB_DIR}/code/torchrun.sh 代码示例文件目录结构如下所示，将以下文件上传至OBS桶中：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

ain_mindspore:v1 bert_pretrain_mindspore:v1 在主机上新建config.yaml文件。 config.yaml文件用于配置pod，本示例中使用sleep命令启动pod，便于进入pod调试。您也可以修改command为对应的任务启动命令（如“python

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用

总条数： 1373

上一页
1
...
44
45
46
...
69
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

图模式 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

用户自定义镜像自建的conda环境会查到一些额外的包，影响用户程序，如何解决？ - AI开发平台ModelArts

停止计费 - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

资源选择推荐 - AI开发平台ModelArts

通过JupyterLab在线使用Notebook实例进行AI开发 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

在ModelArts中使用Moxing复制数据时如何定义路径变量？ - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

tensorboard显示502 bad gateway - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线