搜索_华为云

添加图片时，图片大小有限制吗？ - AI开发平台ModelArts

图片导入。需注意的是，同步数据源同时也会将OBS已删除的文件从数据集也删除，请谨慎操作。方法3：新建数据集。将图片上传至OBS任意目录，可以直接使用这些图片目录作为数据集的输入目录，新建一个数据集。父主题： Standard数据管理

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

distributed.init_process_group()导致超时。处理方法如果是多个节点复制不同步，并且没有barrier的话导致的超时，可以在复制数据之前，先进行torch.distributed.init_process_group()，然后再根据local_rank()==0去复制数据，之后再调用torch

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

version 原因分析出现该问题的可能原因如下： conda和pip包混装，有一些包卸载不掉。处理方法参考如下代码，三步走。先卸载numpy中可以卸载的组件。删除你环境中site-packages路径下的numpy文件夹。重新进行安装需要的版本。 import os os.system("pip

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
BF16和FP16说明 - AI开发平台ModelArts

程中数值的上溢或下溢，从而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

'*.zip') unzip_data_path = os.path.join(TEMP_CACHE_PATH, 'unzip') #也可以采用zipfile等Python包来做解压 os.system('unzip '+ zip_data_path + ' -d ' + unzip_data_path)

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 训练过程读取数据
日志提示“No space left on device” - AI开发平台ModelArts

（ blocksize，系统默认 4096B。总共有三种大小：1024B、2048B、4096B）创建文件越快，越容易触发。处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
欠拟合的解决方法有哪些？ - AI开发平台ModelArts

络来替代线性回归，用随机森林来代替决策树。增加更多的特征，使输入数据具有更强的表达能力。特征挖掘十分重要，尤其是具有强表达能力的特征，可以抵过大量的弱表达能力的特征。特征的数量并非重点，质量才是，总之强表达能力的特征最重要。能否挖掘出强表达能力的特征，还在于对数据本身以及具体应用场景的深刻理解，这依赖于经验。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
eagle投机小模型训练 - AI开发平台ModelArts

如下图所示config文件，即为对应模型的eagle config文件。图2 eagle config文件步骤五：训练生成权重转换成可以支持vLLM推理的格式将训练完成后的权重文件（.bin文件或. safetensors文件），移动到下载好的开源权重目录下（即步骤4中，config文件所在目录）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
解析Manifest文件 - AI开发平台ModelArts

置信度，数值类型，范围0<=confidence<=1，表示机器标注的置信度。 creation_time String 创建该标注的时间。是用户写入标注的时间，不是Manifest生成时间。 annotated_by String 标注人。 annotation_format String

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > Manifest管理
eagle投机小模型训练 - AI开发平台ModelArts

以llama2-chat-7B为例，单击进入后，如下图所示config文件，即为对应模型的eagle config文件。步骤五：训练生成权重转换成可以支持vLLM推理的格式将训练完成后的权重文件（.bin文件或. safetensors文件），移动到下载好的开源权重目录下（即步骤4中，config文件所在目录）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
eagle 投机小模型训练 - AI开发平台ModelArts

以llama2-chat-7B为例，单击进入后，如下图所示config文件，即为对应模型的eagle config文件。步骤五：训练生成权重转换成可以支持vLLM推理的格式将训练完成后的权重文件（.bin文件或. safetensors文件），移动到下载好的开源权重目录下（即步骤4中，config文件所在目录）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
导入模型时，模型配置文件中的安装包依赖参数如何编写？ - AI开发平台ModelArts

} ] } ] 当"mmcv-full"安装失败，原因可能是基础镜像中没有安装gcc，无法编译导致安装失败，此时需要用户使用线下wheel包安装。示例如下： "dependencies": [ { "installer": "pip",

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 模型管理 > 导入模型
迁移适配 - AI开发平台ModelArts
迁移适配 - AI开发平台ModelArts

通过设定ASCEND_RT_VISIBLE_DEVICES环境变量为0，控制0号卡对当前进程可见，PRE_SEQ_LEN和LR分别是soft prompt长度和训练的学习率，可以进行调节以取得最佳的效果。此外，这里去掉了int 4量化默认为FP16精度。${HOME} 目录需要根据读者实际数据集及模型路径匹配，适配

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于LLM模型的GPU训练业务迁移至昇腾指导
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

创建文件越快，越容易触发（机制大概是：有一个缓存，这块大小和上面的1和2有关，目录下文件数量比较大时会启动，使用方式是边用边释放）处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
如何禁止Ubuntu 20.04内核自动升级？ - AI开发平台ModelArts

”改为“Unattended-Upgrade "0";”以禁用自动更新，然后保存文件并退出。将当前内核版本锁定。要禁止特定的内核版本更新，你可以使用“apt-mark”命令将其锁定。首先，检查你当前的内核版本： uname -r 例如，如果你的内核版本是“5.4.0-42-gen

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server

总条数： 2326

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

添加图片时，图片大小有限制吗？ - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

欠拟合的解决方法有哪些？ - AI开发平台ModelArts

eagle投机小模型训练 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

解析Manifest文件 - AI开发平台ModelArts

eagle投机小模型训练 - AI开发平台ModelArts

eagle 投机小模型训练 - AI开发平台ModelArts

导入模型时，模型配置文件中的安装包依赖参数如何编写？ - AI开发平台ModelArts

迁移适配 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

如何禁止Ubuntu 20.04内核自动升级？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线