搜索_华为云

ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

ModelArts训练作业无法解析参数，日志报错问题现象 ModelArts训练作业无法解析参数，遇到如下报错，导致无法正常运行： error: unrecognized arguments: --data_url=xxx://xxx/xxx error: unrecognized

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
在JupyterLab中使用MindInsight可视化作业 - AI开发平台ModelArts

环境中通过小数据集训练调试算法，主要目的是验证算法收敛性、检查是否有训练过程中的问题，方便用户调测。 MindInsight能可视化展现出训练过程中的标量、图像、计算图以及模型超参等信息，同时提供训练看板、模型溯源、数据溯源、性能调试等功能，帮助您更高效地训练调试模型。MindI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备训练Llama2-13B模型适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。镜像地址本教程中用到的训练的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本训练基础镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

已在云监控页面设置告警规则，具体操作请参见设置告警规则。在线服务已正常运行一段时间（约10分钟）。对于新创建的在线服务，需要等待一段时间，才能查看上报的监控数据和监控视图。故障、删除状态的在线服务，无法在云监控中查看其监控指标。当在线服务再次启动或恢复后，即可正常查看。对接云监控之前，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
训练场景和方案介绍 - AI开发平台ModelArts

5模型的训练过程，包括Finetune训练、LoRA训练和Controlnet训练。约束限制本方案目前仅适用于企业客户。本文档适配昇腾云ModelArts 6.3.908版本，请参考表1获取配套版本的软件包和镜像，请严格遵照版本配套关系使用本文档。 Finetune训练使用单机8卡资源。 Lora训练使用单机单卡资源。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Kohya框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） - AI开发平台ModelArts

主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）场景介绍准备工作预训练 SFT全参微调训练 LoRA微调训练查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912）场景介绍准备工作执行训练任务查看日志和性能训练脚本说明常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训（Checkpointing）和故障快恢都是指训练中断后可从训练中一定间隔（${save-interval}）保存的模型（包括模型参数、优化器状态、训练迭代次数等）继续训练恢复，而不需要从头开始。不同点断点续训：可指定加载训练过程中生成的Megatron格式权重(${use

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
在ModelArts训练时如何安装C++的依赖库？ - AI开发平台ModelArts

在ModelArts训练时如何安装C++的依赖库？在训练作业的过程中，会使用到第三方库。以C++为例，请参考如下操作步骤进行安装：将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。将上传到OBS的源码使用Moxing复制到开发环境Notebook中。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

包含了本教程中使用到的模型训练代码。代码包具体说明请参见模型软件包结构说明。获取路径：Support-E 请联系您所在企业的华为方技术支持下载获取。模型软件包结构说明 AscendCloud-6.3.906代码包中AscendCloud-LLM代码包结构介绍如下，训练脚本以分类的方式集中在scripts文件夹中：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可对tokenizer文件进行编辑。 LLama2模型在当前的软件版本中，由于transformers的版本过高（transformers==4

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
SFT全参微调训练任务 - AI开发平台ModelArts

SFT全参微调训练任务步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）
执行LoRA微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 Step1 上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908）
SFT全参微调训练任务 - AI开发平台ModelArts

SFT全参微调训练任务步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909）
执行LoRA微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）
训练作业找不到GPU - AI开发平台ModelArts

训练作业找不到GPU 问题现象训练作业运行出现如下报错： failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected 原因分析根据错误信息判断，报错原因为训练作业运行程序读取不到GPU。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
准备Notebook（可选） - AI开发平台ModelArts

rk目录下，该目录下的内容在实例停止后会被保留。可以自定义磁盘空间，如果需要存储数据集、模型等大型文件，建议申请规格300GB+。存储支持在线按需扩容。图2 自定义存储配置使用Notebook将OBS数据导入云硬盘EVS 打开已创建的Notebook实例，选择Notebook的python-3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
模型NPU卡数取值表 - AI开发平台ModelArts

模型NPU卡数取值表不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推表1 模型NPU卡数取值表支持模型支持模型参数量文本序列长度训练类型 Zero并行规格与节点数 llama3 70B cutoff_len=4096

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
如何在ModelArts的Notebook中上传下载OBS文件？ - AI开发平台ModelArts

使用OBS客户端上传文件的操作指导：上传文件方法一：在Notebook中通过Moxing上传下载OBS文件 MoXing是ModelArts自研的分布式训练加速框架，构建于开源的深度学习引擎TensorFlow、PyTorch等之上，使用MoXing API可让模型代码的编写更加简单、高效。 MoXing提供

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
录制Profiling - AI开发平台ModelArts

通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口，执行训练的同时采集性能数据，完成训练后直接输出可视化的性能数据文件，提升了性能分析效率。 Ascend PyTorch Profiler接口可全面采集PyTorch训练场景下的性能数据，主要包

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明

总条数： 1976

上一页
1
...
23
24
25
...
99
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

在JupyterLab中使用MindInsight可视化作业 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） - AI开发平台ModelArts

主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

在ModelArts训练时如何安装C++的依赖库？ - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

训练作业找不到GPU - AI开发平台ModelArts

准备Notebook（可选） - AI开发平台ModelArts

模型NPU卡数取值表 - AI开发平台ModelArts

如何在ModelArts的Notebook中上传下载OBS文件？ - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线