搜索_华为云

使用MaaS调优模型 - AI开发平台ModelArts

登录ModelArts控制台，在“模型训练 > 训练作业”页面单击目标作业，在日志页签查看详情。添加数据集选择存放训练数据集的OBS路径，必须选择到文件。单次上传本地文件到OBS的总大小不能超过5GB，详情请参见如何上传超过5GB的大对象。说明：数据集必须满足要求（请参见约束限制），否则调优会失败。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
Qwen-VL基于Lite Server适配PyTorch NPU的Finetune训练指导(6.3.912) - AI开发平台ModelArts

id: <img>img_path</img>\n{your prompt}，其中id表示对话中的第几张图片。"img_path"可以是本地的图片或网络地址。对话中的检测框可以表示为<box>(x1,y1),(x2,y2)</box>，其中 (x1, y1) 和(x2, y2

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
查看训练作业日志 - AI开发平台ModelArts

请注意日志中不能包含隐私内容，否则会造成信息泄露。下载训练日志仅保留30天，超过30天会被清理。如果用户需要永久保存日志，请单击系统日志窗口右上角下载按钮下载日志至本地保存，支持批量下载多节点日志。用户也可以在创建训练作业时打开永久保存日志按钮，保存训练日志至指定OBS路径。针对使用Ascend规格创建

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
部署模型为在线服务 - AI开发平台ModelArts

版本的平滑过渡升级。说明：当前免费计算规格不支持多版本灰度发布。 “存储挂载” 资源池为专属资源池时显示该参数。在服务运行时将存储卷以本地目录的方式挂载到计算节点（计算实例），模型或输入数据较大时建议使用。 SFS Turbo：文件系统名称：选择对应的SFS Turbo极速

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
执行训练任务（推荐） - AI开发平台ModelArts

非必填。表示训练step迭代次数，有默认值 seed 1234 随机种子数。每次数据采样时，保持一致。 save-interval 1000 用于模型中间版本地保存。当参数值>=TRAIN_ITERS时，生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。当参数值<TRAIN_IT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练任务
在MaaS中创建模型 - AI开发平台ModelArts

请参见约束限制。权重文件指的是模型的参数集合。自定义权重存储路径需要选择存放模型权重文件的OBS路径，必须选择到模型文件夹。单次上传本地文件到OBS的总大小不能超过5GB，详情请参见如何上传超过5GB的大对象。权重校验需要选择是否开启权重文件校验。默认是开启的。当开启

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

https://github.com/bigscience-workshop/Megatron-DeepSpeed 若git clone失败，可以尝试先下载至本地，然后复制至服务器中，在docker cp至容器中。安装Megatron-DeepSpeed框架。 cd Megatron-DeepSpeed

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
创建Workflow训练作业节点 - AI开发平台ModelArts

modelarts.workflow.client.job_client import JobClient session初始化 # 如果您在本地IDEA环境中开发工作流，则Session初始化使用如下方式 # 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险，建议在配

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
创建算法 - AI开发平台ModelArts
创建算法 - AI开发平台ModelArts

当使用完全自定义镜像创建训练作业时，“启动命令”必须在“/home/ma-user”目录下执行，否则训练作业可能会运行异常。创建算法您在本地或使用其他工具开发的算法，支持上传至ModelArts中统一管理。创建算法的准备工作。完成数据准备：已在ModelArts中创建可用的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
ma-cli image镜像构建支持的命令 - AI开发平台ModelArts

FILE_PATH String 是 Dockerfile文件所在的路径。 -t / --target String 否表示构建生成的tar包保存在本地的路径，默认是当前文件夹目录。 -swr / --swr-path String 是 SWR镜像名称，遵循organization/ima

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

测试时需要执行mpirun的节点到hostfile中的节点间有免密登录，设置SSH免密登录方法如下：客户端生成公私钥。执行如下命令，在本地客户端生成公私钥（一路回车默认即可）。 ssh-keygen 上面这个命令会在用户目录.ssh文件夹下创建“id_rsa.pub”（公钥）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
ma-cli ma-job训练作业支持的命令 - AI开发平台ModelArts

--working-dir String 否运行算法时所在的工作目录。 --local-code-dir String 否算法的代码目录下载到训练容器内的本地路径。 --user-command String 否自定义镜像执行命令。需为/home下的目录。当code-dir以file://为前缀时，当前字段不生效。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

ma_container_notebook_cache_dir_size_bytes GPU和NPU类型的Notebook会在“/cache”目录上挂载一块高速本地磁盘，该指标描述该目录的总大小。字节（Bytes） ≥0 NA NA NA Notebook cache目录利用率 ma_contain

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
使用CES监控Lite Server资源 - AI开发平台ModelArts

容器插件nvidia-container-toolkit未安装安装容器插件nvidia-container-toolkit docker无法挂载GPU卡本地磁盘挂载巡检 MountDiskSystem 重要 /etc/fstab中有无效的UUID 请检查/etc/fstab配置文件中UUID的正确性，否则可能会导致机器重启失败

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
训练启动脚本说明和参数配置 - AI开发平台ModelArts

非必填。表示训练step迭代次数，根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时，保持一致。 SAVE_INTERVAL 1000 用于模型中间版本地保存。当参数值>=TRAIN_ITERS时，生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。当参数值<TRAIN_IT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
训练参数配置说明【旧】 - AI开发平台ModelArts

非必填。表示训练step迭代次数，会进行自动计算得出。 SEED 1234 随机种子数。每次数据采样时，保持一致。 SAVE_INTERVAL 1000 用于模型中间版本地保存。当参数值>=TRAIN_ITERS时，生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。当参数值<TRAIN_IT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
训练参数配置说明【旧】 - AI开发平台ModelArts

非必填。表示训练step迭代次数，会进行自动计算得出。 SEED 1234 随机种子数。每次数据采样时，保持一致。 SAVE_INTERVAL 1000 用于模型中间版本地保存。当参数值>=TRAIN_ITERS时，生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。当参数值<TRAIN_IT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
训练启动脚本说明和参数配置 - AI开发平台ModelArts

非必填。表示训练step迭代次数，会进行自动计算得出。 SEED 1234 随机种子数。每次数据采样时，保持一致。 SAVE_INTERVAL 1000 用于模型中间版本地保存。当参数值>=TRAIN_ITERS时，生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。当参数值<TRAIN_IT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
训练启动脚本说明和参数配置 - AI开发平台ModelArts

非必填。表示训练step迭代次数，根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时，保持一致。 SAVE_INTERVAL 1000 用于模型中间版本地保存。当参数值>=TRAIN_ITERS时，生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。当参数值<TRAIN_IT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

非必填。表示训练step迭代次数，根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时，保持一致。 SAVE_INTERVAL 1000 用于模型中间版本地保存。当参数值>=TRAIN_ITERS时，生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。当参数值<TRAIN_IT

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明

总条数： 446

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用MaaS调优模型 - AI开发平台ModelArts

Qwen-VL基于Lite Server适配PyTorch NPU的Finetune训练指导(6.3.912) - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

部署模型为在线服务 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

在MaaS中创建模型 - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

创建Workflow训练作业节点 - AI开发平台ModelArts

创建算法 - AI开发平台ModelArts

ma-cli image镜像构建支持的命令 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

ma-cli ma-job训练作业支持的命令 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线