搜索_华为云

服务启动失败 - AI开发平台ModelArts

资源不足，服务调度失败服务启动失败，提示资源不足，服务调度失败，请参考服务部署、启动、升级和修改时，资源不足如何处理？内存不足服务启动失败，提示内存不足，请参考内存不足如何处理？父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
查询训练作业版本详情 - AI开发平台ModelArts

system_metric_list属性列表参数参数类型说明 cpuUsage Array 训练作业CPU资源占用率。 memUsage Array 训练作业内存资源占用率。 gpuUtil Array 训练作业GPU资源占用率。表7 metric属性列表参数参数类型说明 metric_values

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
SFT全参微调训练 - AI开发平台ModelArts

文件。示例中，默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改，可添加并自定义该变量。 SAVE_INTERVAL 10 表示训练间隔多少step，则会保存一次权重文件。 CONVERT_MG2HF TRUE 训练完成的权重文件默认不会自动转换为Hugging Face格式权

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
在线服务预测报错ModelArts.4206 - AI开发平台ModelArts

4206表示该API的请求流量超过了设定值。为了保证服务的平稳运行，ModelArts对单个API的推理请求流量做了限制，同时为了保证推理服务可以稳定运行在合理区间，ModelArts将限流值设定在一个较高区间。处理办法降低API的流量，如果确有超高并发的需求，请提工单处理。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
Notebook运行代码报错，在'/tmp'中到不到文件 - AI开发平台ModelArts

根据报错提示，需要排查是否将大量数据被保存在“/tmp”中。处理方法进入到“Terminal”界面。在“/tmp”目录下，执行命令du -sh *，查看该目录下的空间占用情况。 sh-4.3$cd /tmp sh-4.3$du -sh * 4.0K core-js-banners 0 npm-19-41ed4c62

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
查询训练作业版本列表 - AI开发平台ModelArts

system_metric_list属性列表参数参数类型说明 cpuUsage Array 训练作业CPU资源占用率。 memUsage Array 训练作业内存资源占用率。 gpuUtil Array 训练作业GPU资源占用率。表9 metric属性列表参数参数类型说明 metric_values

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
查询Notebook支持的有效规格列表 - AI开发平台ModelArts

Boolean 是否为免费规格。 gpu GPUInfo object GPU信息。 id String 规格ID。 memory Long 内存大小。 name String 规格名称。 sold_out Boolean 资源是否充足。 true 资源不足 false 资源充足 storages

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

ZeRO-3 2*节点 & 8*Ascend 以上参数为开启NPU FlashAttention融合算子，上述参数值仅供参考，请根据自己实际要求合理配置其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数及其他配置。具体优化工具使用说明可

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

ZeRO-3 1*节点 & 4*Ascend 以上参数为开启NPU FlashAttention融合算子，上述参数值仅供参考，请根据自己实际要求合理配置其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数及其他配置。具体优化工具使用说明可

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
SFT全参微调训练 - AI开发平台ModelArts

请参见训练tokenizer文件说明。 Step4 其他配置选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表1进行配置。图3 选择资源池规格作业日志选择OBS中的路径，训练作业的日志信息则保存该路径下。最后，提交训练作业，训练完成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

ZeRO-3 2*节点 & 8*Ascend 以上参数为开启NPU FlashAttention融合算子，上述参数值仅供参考，请根据自己实际要求合理配置其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数及其他配置。具体优化工具使用说明可

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
显存溢出错误 - AI开发平台ModelArts

max_split_size_mb to avoid fragmentation. 解决方法通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

max_split_size_mb to avoid fragmentation. 解决方法通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

max_split_size_mb to avoid fragmentation. 解决方法通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

max_split_size_mb to avoid fragmentation. 解决方法通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

AL参数来指定间隔多少step保存checkpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。当前功能还处于试验阶段，只有llama3-8B/70B适配。 Step5 其他配置选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表1进行配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

AL参数来指定间隔多少step保存checkpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。当前功能还处于试验阶段，只有llama3-8B/70B适配。 Step5 其他配置选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表1进行配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

AL参数来指定间隔多少step保存checkpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。当前功能还处于试验阶段，只有llama3-8B/70B适配。 Step5 其他配置选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表1进行配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）

总条数： 545

上一页
1
...
4
5
6
...
28
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

服务启动失败 - AI开发平台ModelArts

查询训练作业版本详情 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

在线服务预测报错ModelArts.4206 - AI开发平台ModelArts

Notebook运行代码报错，在'/tmp'中到不到文件 - AI开发平台ModelArts

查询训练作业版本列表 - AI开发平台ModelArts

查询Notebook支持的有效规格列表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线