搜索_华为云

执行训练任务【新】 - AI开发平台ModelArts

云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/ 存储位置：输入用户的“子目录挂载”路径。如果默认没有填写，则忽略。图6 选择SFS Turbo 作业日志选择OBS中的路径，ModelArts的训练作业的日志信息则保存该路径下。最后，请参考查看日志和

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.5.901） > 执行训练任务
创建网络资源 - AI开发平台ModelArts

Turbo的ID。 name String SFS Turbo的名称。 status String 与SFS Turbo的连接状态信息。可选值如下： Active：SFS连通状态正常 Abnormal：SFS连通状态异常 ipAddr String SFS Turbo的访问地址。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查询数据集导出任务列表 - AI开发平台ModelArts

导出类型，不传则默认查询所有类型的导出任务。可选值如下： 0：已标注 1：未标注 2：全部 3：条件筛选 limit 否 Integer 指定每一页返回的最大条目数，取值范围[1,100]，默认为10。 offset 否 Integer 分页列表的起始页，默认为0。请求参数无

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
使用AI市场物体检测YOLOv3 - AI开发平台ModelArts

'feat_2:0', 'feat_3': 'feat_3:0'} 不做数据集切分操作。如果选择未切分的数据集，算法将做纯训练场景；父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
执行训练任务 - AI开发平台ModelArts

必须修改。用于指定模板。如果设置为"qwen"，则使用Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
创建网络 - AI开发平台ModelArts
创建网络 - AI开发平台ModelArts

列单击“启动IPv6”，如图3 打通VPC前，需要保证ModelArts网络和您的VPC网络都已开启IPv6，IPv6才会生效。若是打通VPC后，才开启ModelArts网络的IPv6或VPC网络的IPv6，此时需要重新打通VPC及子网，IPv6才会生效。图2 创建网络图3 启动IPv6

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

train_13b.sh 的脚本，开始训练。在训练中，程序会自动执行对数据集预处理、权重转换、执行训练等操作，具体可通过训练启动脚本说明和参数配置、训练的数据集预处理说明、训练的权重转换说明了解其中的操作。训练完成后在SFS Turbo中保存训练的模型结果。（多机情况下，只有

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

train_13b.sh 的脚本，开始训练。在训练中，程序会自动执行对数据集预处理、权重转换、执行训练等操作，具体可通过训练启动脚本说明和参数配置、训练的数据集预处理说明、训练的权重转换说明了解其中的操作。训练完成后在SFS Turbo中保存训练的模型结果。（多机情况下，只有

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
开发环境（旧版） - AI开发平台ModelArts

开发环境（旧版）创建开发环境实例查询开发环境实例列表查询开发环境实例详情更新开发环境实例信息删除开发环境实例管理开发环境实例父主题：历史API

帮助中心 > AI开发平台ModelArts > API参考 > 历史API
终止训练作业 - AI开发平台ModelArts

String 自定义镜像训练作业的自定义镜像的容器的启动命令。例如python train.py。 parameters Array of Parameter objects 训练作业的运行参数。 policies policies object 作业支持的策略。 inputs Array

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

train_13b.sh 的脚本，开始训练。在训练中，程序会自动执行对数据集预处理、权重转换、执行训练等操作，具体可通过训练启动脚本说明和参数配置、训练的数据集预处理说明、训练的权重转换说明了解其中的操作。训练完成后在SFS Turbo中保存训练的模型结果。（多机情况下，只有

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

Cloud）可以为您构建隔离的、用户自主配置和管理的虚拟网络环境，操作指导请参考创建虚拟私有云和子网。创建SFS Turbo SFS Turbo HPC型文件系统为用户提供一个完全托管的共享文件存储。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象，用户可以指定SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
训练精度测试 - AI开发平台ModelArts

5-7b-4096-313T-20250113_173136-0.txt 执行下游评估为增加精度评测的稳定性及进一步确保训练，执行过程如下：获取到训练权重后使用ascendfactory-cli、eval接口对训练后的结果进行评测，精度训练benchmark目录执行命令： ascendfactory-cli

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.5.901） > 训练评测
创建团队标注任务 - AI开发平台ModelArts

描述 auto_sync_dataset 否 Boolean 团队标注任务的标注结果是否自动同步至数据集。可选值如下： true：团队标注任务的标注结果自动同步至数据集（默认值） false：团队标注任务的标注结果不自动同步至数据集 data_sync_type 否 Integer

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
日志提示“no socket interface found” - AI开发平台ModelArts

EOUT，因此会导致通信速度慢且不稳定，最后造成IB通信断连，偶发上述现象。原因2：NCCL_SOCKET_IFNAME设置错误。当用户的NCCL版本低于2.14时，则需要手动设置NCCL_SOCKET_IFNAME环境变量。处理方法针对原因1，需要在代码中补充如下环境变量。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

running”状态代表启动成功。 kubectl get pod -A 进入容器，{pod_name}替换为您的pod名字（get pod中显示的名字），{namespace}替换为您的命名空间（默认为default）。 kubectl exec -it {pod_name} bash -n

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
查询数据集详情 - AI开发平台ModelArts

数据集版本名称。 with_column_header Boolean 发布的CSV文件的第一行是否为列名，对于表格数据集有效。可选值如下： true：发布的CSV文件的第一行是列名 false：发布的CSV文件的第一行不是列名表10 LabelStats 参数参数类型描述 attributes

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
更新训练作业描述 - AI开发平台ModelArts

description 否 String 对训练作业的描述，默认为“NULL”，字符串的长度限制为[0, 256]。响应参数无请求示例如下以修改uuid为3faf5c03-aaa1-4cbe-879d-24b05d997347的训练作业为例。修改成功后再调用查询训练作业接口即可看到description已被修改。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练和SFT全参微调使用的是同一个HuggingFace权重文件，转换为Megatron格式后的结果也是通用的。如果在SFT微调任务中已经完成了HuggingFace权重转换操作，此处无需重复操作，可以直接使用SFT微调中的权重转换结果。如果前面没有执行Hugg

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904）
查询训练作业日志 - AI开发平台ModelArts

训练作业的ID。 version_id 是 Long 训练作业的版本ID。表2 Query参数参数是否必选参数类型说明 base_line 否 String 日志的基准位置，根据接口返回获得，为空的时候代表获取最新的日志。 lines 否 Integer 获取日志的长度，默认为50行。lines的范围为[0

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业

总条数： 1622

上一页
1
...
76
77
78
...
82
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

执行训练任务【新】 - AI开发平台ModelArts

创建网络资源 - AI开发平台ModelArts

查询数据集导出任务列表 - AI开发平台ModelArts

使用AI市场物体检测YOLOv3 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

创建网络 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

开发环境（旧版） - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

创建团队标注任务 - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

查询数据集详情 - AI开发平台ModelArts

更新训练作业描述 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

查询训练作业日志 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线