搜索_华为云

在ModelArts Standard使用run.sh脚本实现OBS和训练容器间的数据传输 - AI开发平台ModelArts

##认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。 ##本示例以AK和SK保存在环境变量中来实现身份验证为例，运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

##认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。 ##本示例以AK和SK保存在环境变量中来实现身份验证为例，运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
SFT全参微调训练 - AI开发平台ModelArts

“输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。图2 环境变量表1 需要填写的环境变量环境变量示例值参数说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

“输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。表1 需要填写的环境变量环境变量示例值参数说明 MOUNT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

“输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。表1 需要填写的环境变量环境变量示例值参数说明 MOUNT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

“输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。表1 需要填写的环境变量环境变量示例值参数说明 MOUNT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

“输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。表1 需要填写的环境变量环境变量示例值参数说明 MOUNT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

“输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。表1 需要填写的环境变量环境变量示例值参数说明 MOUNT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
LoRA微调训练 - AI开发平台ModelArts

“输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。表1 需要填写的环境变量环境变量示例值参数说明 MOUNT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
日志提示“no socket interface found” - AI开发平台ModelArts

原因2：NCCL_SOCKET_IFNAME设置错误。当用户的NCCL版本低于2.14时，则需要手动设置NCCL_SOCKET_IFNAME环境变量。处理方法针对原因1，需要在代码中补充如下环境变量。 import os os.environ["NCCL_IB_TC"] = "128" os.environ[

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
用户如何设置默认的kernel？ - AI开发平台ModelArts

用户如何设置默认的kernel？用户希望打开Notebook默认的kernel为自己自定义的kernel。解决方式: 在Terminal里执行如下命令在镜像里指定环境变量。 # python-3.7.10这里指用户想设置的kernel名称 export KG_DEFAULT_KERNEL_NAME=python-3

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
附录：微调训练常见问题 - AI开发平台ModelArts

附录：微调训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

LE_DEVICES变量是否正常。用户选择了1/2/4卡这些规格的作业，然后设置了CUDA_VISIBLE_DEVICES=‘1’这种类似固定的卡ID号，与实际选择的卡ID不匹配。处理方法尽量代码里不要去修改CUDA_VISIBLE_DEVICES变量，用系统默认里面自带的。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
SFT全参微调训练 - AI开发平台ModelArts

“输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。图2 环境变量表1 需要填写的环境变量环境变量示例值参数说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
SFT全参微调训练 - AI开发平台ModelArts

“输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。图2 环境变量表1 需要填写的环境变量环境变量示例值参数说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
SFT全参微调训练 - AI开发平台ModelArts

“输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。图2 环境变量表1 需要填写的环境变量环境变量示例值参数说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
LoRA微调训练 - AI开发平台ModelArts

“输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。表1 需要填写的环境变量环境变量示例值参数说明 MOUNT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）

总条数： 518

上一页
1
...
5
6
7
...
26
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts Standard使用run.sh脚本实现OBS和训练容器间的数据传输 - AI开发平台ModelArts

run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

用户如何设置默认的kernel？ - AI开发平台ModelArts

附录：微调训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线