搜索_华为云

BF16和FP16说明 - AI开发平台ModelArts

程中数值的上溢或下溢，从而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

distributed.init_process_group()导致超时。处理方法如果是多个节点复制不同步，并且没有barrier的话导致的超时，可以在复制数据之前，先进行torch.distributed.init_process_group()，然后再根据local_rank()==0去复制数据，之后再调用torch

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
在ModelArts数据集中添加图片对图片大小有限制吗？ - AI开发平台ModelArts

图片导入。需注意的是，同步数据源同时也会将OBS已删除的文件从数据集也删除，请谨慎操作。方法3：新建数据集。将图片上传至OBS任意目录，可以直接使用这些图片目录作为数据集的输入目录，新建一个数据集。父主题： Standard数据准备

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
在ModelArts训练得到的模型欠拟合怎么办？ - AI开发平台ModelArts

络来替代线性回归，用随机森林来代替决策树。增加更多的特征，使输入数据具有更强的表达能力。特征挖掘十分重要，尤其是具有强表达能力的特征，可以抵过大量的弱表达能力的特征。特征的数量并非重点，质量才是，总之强表达能力的特征最重要。能否挖掘出强表达能力的特征，还在于对数据本身以及具体应用场景的深刻理解，这依赖于经验。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
eagle投机小模型训练 - AI开发平台ModelArts

以llama2-chat-7B为例，单击进入后，如下图所示config文件，即为对应模型的eagle config文件。步骤五：训练生成权重转换成可以支持vLLM推理的格式将训练完成后的权重文件（.bin文件或. safetensors文件），移动到下载好的开源权重目录下（即步骤4中，config文件所在目录）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
eagle 投机小模型训练 - AI开发平台ModelArts

以llama2-chat-7B为例，单击进入后，如下图所示config文件，即为对应模型的eagle config文件。步骤五：训练生成权重转换成可以支持vLLM推理的格式将训练完成后的权重文件（.bin文件或. safetensors文件），移动到下载好的开源权重目录下（即步骤4中，config文件所在目录）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
解析Manifest文件 - AI开发平台ModelArts

置信度，数值类型，范围0<=confidence<=1，表示机器标注的置信度。 creation_time String 创建该标注的时间。是用户写入标注的时间，不是Manifest生成时间。 annotated_by String 标注人。 annotation_format String

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > Manifest管理
日志提示“No space left on device” - AI开发平台ModelArts

（ blocksize，系统默认 4096B。总共有三种大小：1024B、2048B、4096B）创建文件越快，越容易触发。处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

创建文件越快，越容易触发（机制大概是：有一个缓存，这块大小和上面的1和2有关，目录下文件数量比较大时会启动，使用方式是边用边释放）处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
eagle投机小模型训练 - AI开发平台ModelArts

如下图所示config文件，即为对应模型的eagle config文件。图2 eagle config文件步骤五：训练生成权重转换成可以支持vLLM推理的格式将训练完成后的权重文件（.bin文件或. safetensors文件），移动到下载好的开源权重目录下（即步骤4中，config文件所在目录）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
ModelArts导入模型时，如何编写模型配置文件中的安装包依赖参数？ - AI开发平台ModelArts

} ] } ] 当"mmcv-full"安装失败，原因可能是基础镜像中没有安装gcc，无法编译导致安装失败，此时需要用户使用线下wheel包安装。示例如下： "dependencies": [ { "installer": "pip",

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
SFT全参微调训练 - AI开发平台ModelArts

创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。图2 开启故障重启 Step5 其他配置选择用户自己的专属资源池，以及规格与节点数。本次qwenvl模型选用 8* ascend-snt9b。图3 选择资源池规格在OBS中新建一个l

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
LoRA微调训练 - AI开发平台ModelArts

创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。图2 开启故障重启 Step5 其他配置选择用户自己的专属资源池，以及规格与节点数。本次qwenvl模型选用 8* ascend-snt9b。图3 选择资源池规格在OBS中新建一个l

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
如何禁止Ubuntu 20.04内核自动升级？ - AI开发平台ModelArts

”改为“Unattended-Upgrade "0";”以禁用自动更新，然后保存文件并退出。将当前内核版本锁定。要禁止特定的内核版本更新，您可以使用“apt-mark”命令将其锁定。首先，检查当前的内核版本： uname -r 例如，如果内核版本是“5.4.0-42-generi

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server

总条数： 2367

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

BF16和FP16说明 - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

在ModelArts数据集中添加图片对图片大小有限制吗？ - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

在ModelArts训练得到的模型欠拟合怎么办？ - AI开发平台ModelArts

eagle投机小模型训练 - AI开发平台ModelArts

eagle 投机小模型训练 - AI开发平台ModelArts

解析Manifest文件 - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

eagle投机小模型训练 - AI开发平台ModelArts

ModelArts导入模型时，如何编写模型配置文件中的安装包依赖参数？ - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

如何禁止Ubuntu 20.04内核自动升级？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线