搜索_华为云

PyCharm ToolKit工具中Edit Credential时，出现错误 - AI开发平台ModelArts

在本地PC的hosts文件中配置域名和IP地址的对应关系。三、网络代理设置如果用户使用的网络有代理设置要求，请检查代理配置是否正确。也可以使用手机热点网络连接进行测试排查。检查代理配置是否正确。图2 PyCharm网络代理设置四、AK/SK不正确获取到的AK/SK信息

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > PyCharm Toolkit使用
大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

'*.zip') unzip_data_path = os.path.join(TEMP_CACHE_PATH, 'unzip') #也可以采用zipfile等Python包来做解压 os.system('unzip '+ zip_data_path + ' -d ' + unzip_data_path)

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 训练过程读取数据
在VS Code中上传下载文件 - AI开发平台ModelArts

#输入python并回车，进入python环境 python 然后参考文件传输进行OBS传输操作。下载Notebook中的文件至本地在Notebook中开发的文件，可以下载至本地。在本地IDE的Project目录下的Notebook2.0工程单击右键，单击“Download...”将文件下载到本地。图2

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
eagle投机小模型训练 - AI开发平台ModelArts

如下图所示config文件，即为对应模型的eagle config文件。图2 eagle config文件步骤五：训练生成权重转换成可以支持vLLM推理的格式将训练完成后的权重文件（.bin文件或. safetensors文件），移动到下载好的开源权重目录下（即步骤4中，config文件所在目录）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910）
训练的数据集预处理说明 - AI开发平台ModelArts

--workers：设置数据处理时，要执行的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
欠拟合的解决方法有哪些？ - AI开发平台ModelArts

络来替代线性回归，用随机森林来代替决策树。增加更多的特征，使输入数据具有更强的表达能力。特征挖掘十分重要，尤其是具有强表达能力的特征，可以抵过大量的弱表达能力的特征。特征的数量并非重点，质量才是，总之强表达能力的特征最重要。能否挖掘出强表达能力的特征，还在于对数据本身以及具体应用场景的深刻理解，这依赖于经验。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
返回结果 - AI开发平台ModelArts
返回结果 - AI开发平台ModelArts

对于获取用户Token接口，返回如图1所示的消息头。其中“x-subject-token”就是需要获取的用户Token。有了Token之后，您就可以使用Token认证调用其他API。图1 获取用户Token响应消息头响应消息体响应消息体通常以结构化格式返回，与响应消息头中Cont

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
训练场景和方案介绍 - AI开发平台ModelArts

使用本文档。 Finetune训练使用单机8卡资源。 Lora训练使用单机单卡资源。 Controlnet训练使用单机单卡资源。确保容器可以访问公网。资源规格要求推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。软件配套版本表1 获取软件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
模型调试 - AI开发平台ModelArts
模型调试 - AI开发平台ModelArts

model_name="tensorflow_mlp_mnist_local_infer") 本地模型创建好后，可部署为本地服务。本地模型创建完，可以调用接口发布模型。 1 model.publish_model(obs_location=obs_location) 指定参数“obs_

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
日志提示“No space left on device” - AI开发平台ModelArts

（ blocksize，系统默认 4096B。总共有三种大小：1024B、2048B、4096B）创建文件越快，越容易触发。处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

通过pytorch官网可查兼容版本：https://pytorch.org/get-started/previous-versions/ 如果环境中装了多版本的cuda，可以排查LD_LIBRARY_PATH中的cuda优先级，需要手动调整下。举例：如果cuda只兼容cuda-9.1，查询到LD_LIBRAR

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
训练数据集预处理说明 - AI开发平台ModelArts

--workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。微调数据集预处理参数说明微调包含SFT和LoRA微调。数据集预处理脚本参数说明如下： --input：原始数据集的存放路径。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
准备Notebook（可选） - AI开发平台ModelArts

云硬盘EVS是Notebook开发环境内存的存储硬盘，作为持久化存储挂载在/home/ma-user/work目录下，该目录下的内容在实例停止后会被保留。可以自定义磁盘空间，如果需要存储数据集、模型等大型文件，建议申请规格300GB+。存储支持在线按需扩容。图2 自定义存储配置使用Notebook将OBS数据导入云硬盘EVS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 准备工作
训练的数据集预处理说明 - AI开发平台ModelArts

--workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
eagle投机小模型训练 - AI开发平台ModelArts

以llama2-chat-7B为例，单击进入后，如下图所示config文件，即为对应模型的eagle config文件。步骤五：训练生成权重转换成可以支持vLLM推理的格式将训练完成后的权重文件（.bin文件或. safetensors文件），移动到下载好的开源权重目录下（即步骤4中，config文件所在目录）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
eagle 投机小模型训练 - AI开发平台ModelArts

以llama2-chat-7B为例，单击进入后，如下图所示config文件，即为对应模型的eagle config文件。步骤五：训练生成权重转换成可以支持vLLM推理的格式将训练完成后的权重文件（.bin文件或. safetensors文件），移动到下载好的开源权重目录下（即步骤4中，config文件所在目录）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
附录：指令微调训练常见问题 - AI开发平台ModelArts

问题2：访问容器目录时提示Permission denied 由于在容器中没有相应目录的权限，会导致访问时提示Permission denied。可以在宿主机中对相关目录做权限放开，执行命令如下。 chmod 777 -R ${dir} 问题3：训练过程报错：ImportError: This

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
训练场景和方案介绍 - AI开发平台ModelArts

908版本，请参考表1获取配套版本的软件包和镜像，请严格遵照版本配套关系使用本文档。 Finetune训练使用单机8卡资源。 Lora训练使用单机单卡资源。确保容器可以访问公网。资源规格要求推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。软件配套版本表1 获取软件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

创建文件越快，越容易触发（机制大概是：有一个缓存，这块大小和上面的1和2有关，目录下文件数量比较大时会启动，使用方式是边用边释放）处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障

总条数： 1638

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

PyCharm ToolKit工具中Edit Credential时，出现错误 - AI开发平台ModelArts

大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

在VS Code中上传下载文件 - AI开发平台ModelArts

eagle投机小模型训练 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

欠拟合的解决方法有哪些？ - AI开发平台ModelArts

返回结果 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

模型调试 - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

训练数据集预处理说明 - AI开发平台ModelArts

准备Notebook（可选） - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

eagle投机小模型训练 - AI开发平台ModelArts

eagle 投机小模型训练 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

附录：指令微调训练常见问题 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线