搜索_华为云

常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

接成/home/ma-user/），导致数据占满系统目录。系统目录仅支持系统功能基本运行，无法支持大数据存储。部分训练任务会在训练过程中生成checkpoint文件，并进行更新。如更新过程中，未删除历史的checkpoint文件，会导致/cache目录逐步被用完。实际存储空间足够，却依旧报错“No

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
开启训练故障自动重启功能 - AI开发平台ModelArts

即便模型训练中断，也可以基于checkpoint接续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置接续训练，加载中断生成的checkpoint，中间不需要改动任何参数（支持预训练、LoRA微调、SFT微调）。如果要使用自动重启功能，资源规格必须选择八卡规格。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
SFT全参微调训练任务 - AI开发平台ModelArts

endSpeed/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中，默认生成在“processed_for_input”文件夹下。若用户需要修改，可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911）
LoRA微调训练 - AI开发平台ModelArts

endSpeed/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中，默认生成在“processed_for_input”文件夹下。若用户需要修改，可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910）
SFT全参微调训练任务 - AI开发平台ModelArts

endSpeed/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中，默认生成在“processed_for_input”文件夹下。若用户需要修改，可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909）
创建训练作业版本 - AI开发平台ModelArts

训练作业的版本名称。请求示例如下以创建“job_id”为10，“pre_version_id”为20的一个新版本作业为例。 POST https://endpoint/v1/{project_id}/training-jobs/10/versions/ { "job_desc":

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
从OBS中导入模型文件创建模型 - AI开发平台ModelArts

I引擎”。 “容器调用接口” 当“AI引擎”选择“Custom”时，才会显示该参数。模型提供的推理接口所使用的协议和端口号，缺省值是HTTPS和8080，端口和协议需要根据模型实际定义的推理接口进行配置。 “健康检查” 用于指定模型的健康检查。使用Custom引擎时，会显示该参

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
查询训练作业参数详情 - AI开发平台ModelArts

String 参数名称。 value String 参数值。请求示例如下以查询名为“config123”的作业参数详情为例。 GET https://endpoint/v1/{project_id}/training-job-configs/config123 响应示例成功响应示例

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

在线服务”，单击生成的在线服务名称，即可进入在线服务详情页。在服务详情页，单击选择“预测”页签。图4 上传预测图片单击“上传”，选择一张需要预测的图片，单击“预测”，即可在右边的预测结果显示区查看您的预测结果。图5 预测样例图图6 查看预测结果本案例中数据和算法生成的模型仅适

 帮助中心 > AI开发平台ModelArts > 快速入门
使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

在线服务”，单击生成的在线服务名称，即可进入在线服务详情页。在服务详情页，单击选择“预测”页签。图4 上传预测图片单击“上传”，选择一张需要预测的图片，单击“预测”，即可在右边的预测结果显示区查看您的预测结果。图5 预测样例图图6 查看预测结果本案例中数据和算法生成的模型仅适

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard自动学习
LoRA微调训练 - AI开发平台ModelArts

endSpeed/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中，默认生成在“processed_for_input”文件夹下。若用户需要修改，可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911）
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

多卡训练时，需要依赖“rank_table_file”做卡间通信的配置文件，该文件自动生成，pod启动之后文件地址。为“/user/config/jobstart_hccl.json”，“/user/config/jobstart_hccl.json”配置文件生成需要一段时间，业务进程需要等待“/user/config/jobstart_hccl

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
SFT全参微调训练任务 - AI开发平台ModelArts

endSpeed/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中，默认生成在“processed_for_input”文件夹下。如果用户需要修改，可添加并自定义该变量。 OUTPUT_SAVE_DIR /home

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907）
MoXing Framework功能介绍 - AI开发平台ModelArts

bucket/XXX.txt”。用户无法直接使用open方法打开OBS文件，上面描述的打开本地文件的代码将会报错。 OBS提供了很多方式和工具给用户使用，如SDK、API、console、OBS Browser等，ModelArts mox.file提供了一套更为方便地访问OBS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
ModelArts与其他服务的关系 - AI开发平台ModelArts

功能子任务 ModelArts与OBS的关系自动学习数据标注 ModelArts标注的数据存储在OBS中。自动训练训练作业结束后，其生成的模型存储在OBS中。部署上线 ModelArts将存储在OBS中的模型部署上线为在线服务。 AI全流程开发数据管理数据集存储在OBS中。

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
Lite Server资源开通 - AI开发平台ModelArts

支持同时购买多台机器，输入值必须在1到10之间。若有多台机器资源，会生成对应多笔订单，需逐一支付每笔订单，不可合并支付。单击“立即创建”，完成实例的创建，随后进入付款界面。支付对应资源的订单。图8 支付订单若有多台机器资源，会生成对应多笔订单，需逐一支付每笔订单，不可合并支付。支付完

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
预训练任务 - AI开发平台ModelArts

endSpeed/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中，默认生成在“processed_for_input”文件夹下。若用户需要修改，可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909）
预训练任务 - AI开发平台ModelArts

endSpeed/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中，默认生成在“processed_for_input”文件夹下。若用户需要修改，可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911）
预训练任务 - AI开发平台ModelArts

endSpeed/processed_for_input/llama2-13b 该路径下保存“数据转换”和“权重转换”的结果。示例中，默认生成在“processed_for_input”文件夹下。若用户需要修改，可添加并自定义该变量。 OUTPUT_SAVE_DIR /home/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910）
附录：训练常见问题 - AI开发平台ModelArts

ue 将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-ZeRO-1，Dee

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）

总条数： 1120

上一页
1
...
48
49
50
...
56
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

开启训练故障自动重启功能 - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

创建训练作业版本 - AI开发平台ModelArts

从OBS中导入模型文件创建模型 - AI开发平台ModelArts

查询训练作业参数详情 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现垃圾分类 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

MoXing Framework功能介绍 - AI开发平台ModelArts

ModelArts与其他服务的关系 - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线