搜索_华为云

使用SDK调测单机训练作业 - AI开发平台ModelArts

BS路径。代码是以PyTorch为例编写的，不同的AI框架之间，整体流程是完全相同的，仅需修改6和10中的framework_type参数值即可，例如：MindSpore框架，此处framework_type=Ascend-Powered-Engine。 Session初始化。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

在弹出的“访问授权”窗口中，授权对象类型选“所有用户”，委托选择选“新增委托”，权限配置选择“普通用户”，并勾选“我已经详细阅读并同意《ModelArts服务声明》”，然后单击“创建”。完成配置后，在ModelArts控制台的权限管理列表，可查看到此账号的委托配置信息。步骤二：创建训练数据集单

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard自动学习
通过APP认证的方式访问在线服务 - AI开发平台ModelArts

或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以app_key和app_secret保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_APP_KEY和HUAWEICLOUD_APP_SECRET。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
创建训练作业参数 - AI开发平台ModelArts

{python_file_parameter}”。需要调用通过启动脚本run_train.sh进行变量的初始化，如AK/SK。run_train.sh后跟python是保证python文件能在已经初始化的变量环境下执行，即使用run_train.sh去启动python。表3 data_source

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
通过API接口查询模型详情，model_name返回值出现乱码 - AI开发平台ModelArts

Flow"...... 原因分析当模型名称包含下划线时，下划线涉及转义处理。处理方法需要在请求中增加exact_match参数，且参数值设置为true，确保model_name返回值正确。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

否，则联系技术支持排查节点状态。建议与总结环境变量NCCL_SOCKET_IFNAME用于指定通信的网卡名称。“NCCL_SOCKET_IFNAME=eth0”表示仅使用eth0网卡通信。该环境变量由系统自动注入，由于通信网卡名称不固定，因此训练代码不应默认设置该环境变量。环境变量NCCL_IB_TIMEOUT用于控制InfiniBand

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
日志提示“no socket interface found” - AI开发平台ModelArts

原因2：NCCL_SOCKET_IFNAME设置错误。当用户的NCCL版本低于2.14时，则需要手动设置NCCL_SOCKET_IFNAME环境变量。处理方法针对原因1，需要在代码中补充如下环境变量。 import os os.environ["NCCL_IB_TC"] = "128" os.environ[

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练？ - AI开发平台ModelArts

如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练？ ModelArts会帮用户生成RANK_TABLE_FILE文件，可通过环境变量查看文件位置。在Notebook中打开terminal，可以运行如下命令查看RANK_TABLE_FILE： 1 env | grep RANK

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
SFT全参微调训练 - AI开发平台ModelArts

“输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。图2 环境变量表1 需要填写的环境变量环境变量示例值参数说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

gradient_accumulation_steps: 8 ZeRO-3 1*节点 & 4*Ascend 以上参数为开启NPU FlashAttention融合算子，上述参数值仅供参考，请根据自己实际要求合理配置其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数即其他配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

gradient_accumulation_steps: 8 ZeRO-3 1*节点 & 4*Ascend 以上参数为开启NPU FlashAttention融合算子，上述参数值仅供参考，请根据自己实际要求合理配置其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数即其他配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

“输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。表1 需要填写的环境变量环境变量示例值参数说明 MOUNT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
日志提示"Permission denied" - AI开发平台ModelArts

）： v1训练作业环境变量迁移v2说明： v1的DLS_TASK_NUMBER环境变量，可以使用v2的MA_NUM_HOSTS环境变量替换，即选择的训练节点数。 v1的DLS_TASK_INDEX环境变量，当前可以使用v2的VC_TASK_INDEX环境变量替换，下一步使用MA_

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

gradient_accumulation_steps: 8 ZeRO-3 1*节点 & 4*Ascend 以上参数为未开启NPU FlashAttention融合算子，上述参数值仅供参考，请根据自己实际要求合理配置其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数即其他配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
查看日志和性能 - AI开发平台ModelArts

对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。吞吐量（tokens/s/p）：可通过表1表格中output_dir参数值路径下的train_results.j

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
查看日志和性能 - AI开发平台ModelArts

对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。吞吐量（tokens/s/p）：可通过表1表格中output_dir参数值路径下的train_results.j

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
如何关闭Mox的warmup - AI开发平台ModelArts

4次，然后才会开始正式运行。 warmup即先用一个小的学习率训练几个epoch（warmup），由于网络的参数是随机初始化的，如果一开始就采用较大的学习率会出现数值不稳定的问题，这是使用warm up的原因。等到训练过程基本稳定之后就可以使用原先设定的初始学习率进行训练。原因分析 Tensorflo

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

“输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。表1 需要填写的环境变量环境变量示例值参数说明 MOUNT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908）
LoRA微调训练 - AI开发平台ModelArts

“输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。表1 需要填写的环境变量环境变量示例值参数说明 MOUNT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908）

总条数： 478

上一页
1
2
3
4
5
...
24
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用SDK调测单机训练作业 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

通过APP认证的方式访问在线服务 - AI开发平台ModelArts

创建训练作业参数 - AI开发平台ModelArts

通过API接口查询模型详情，model_name返回值出现乱码 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练？ - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

日志提示"Permission denied" - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

如何关闭Mox的warmup - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线