搜索_华为云

日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

ng_rate”。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
附录：训练常见问题 - AI开发平台ModelArts

expandable_segments:True 将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-ZeR

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
附录：训练常见问题 - AI开发平台ModelArts

expandable_segments:True 将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-ZeR

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
自动模型优化介绍 - AI开发平台ModelArts

float，一般不建议用户修改 TPE算法 TPE算法全称Tree-structured Parzen Estimator，是一种利用高斯混合模型来学习超参模型的算法。在每次试验中，对于每个超参，TPE为与最佳目标值相关的超参维护一个高斯混合模型l(x)，为剩余的超参维护另一个高斯混合模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
训练启动脚本说明和参数配置 - AI开发平台ModelArts

表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
执行训练任务（推荐） - AI开发平台ModelArts

768长度，则推荐增加此值（≥ 2）。（此参数目前仅适用于Llama3系列模型长序列训练） lr 2.5e-5 学习率设置。 min-lr 2.5e-6 最小学习率设置。 seq-length 4096 要处理的最大序列长度。 convert_mg2hf_at_last true

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
训练启动脚本说明和参数配置 - AI开发平台ModelArts

表示张量并行。 PP 8 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907） > 训练脚本说明
日志提示“ Network is unreachable” - AI开发平台ModelArts

tebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
Standard推理部署 - AI开发平台ModelArts

ModelArts在线服务和边缘服务有什么区别？在ModelArts中部署模型时，为什么无法选择Ascend Snt3资源？ ModelArts线上训练得到的模型是否支持离线部署在本地？ ModelArts在线服务预测请求体大小限制是多少？ ModelArts部署在线服务时，如何避免自

 帮助中心 > AI开发平台ModelArts > 常见问题
使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

tebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
执行训练任务（推荐） - AI开发平台ModelArts

768长度，则推荐增加此值（≥ 2）。（此参数目前仅适用于Llama3系列模型长序列训练） lr 2.5e-5 学习率设置。 min-lr 2.5e-6 最小学习率设置。 seq-length 4096 要处理的最大序列长度。 convert_mg2hf_at_last true

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.5.901） > 执行训练任务
执行微调训练任务 - AI开发平台ModelArts

a 【可选】dataset_info.json配置文件所属的绝对路径；如使用自定义数据集，yaml配置文件需添加此参数。是否选择加速深度学习训练框架Deepspeed，可参考表1选择不同的框架。是，选用ZeRO (Zero Redundancy Optimizer)优化器。 ZeRO-0，配置以下参数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
训练作业日志中提示 “AttributeError: module '***' has no attribute '***'” - AI开发平台ModelArts

用自定义镜像介绍。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

error_bad_lines=False) 建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

barrier() 建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

如果发现资源节点中存在GPU卡损坏，请联系技术支持处理。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
查询服务详情 - AI开发平台ModelArts

String 模型名称。 model_version String 模型版本。 source_type String 模型来源，当模型是由自动学习产生时，返回此字段，取值为：auto。 status String 模型实例运行状态，取值为： ready：已就绪（所有实例已启动） co

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
训练作业进程异常退出 - AI开发平台ModelArts

退出码139 请排查安装包的版本，可能存在包冲突的问题。排查办法根据错误信息判断，报错原因来源于用户代码。您可以通过以下两种方式排查：线上环境调试代码（仅适用于非分布式代码）在开发环境（notebook）申请相同规格的开发环境实例。在notebook调试用户代码，并找出问题的代码段。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
附录：训练常见问题 - AI开发平台ModelArts

expandable_segments:True 将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-ZeR

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错问题现象使用kv_store = mxnet.kv.create('dist_async')方式创建“kvstore”时程序被阻塞。如，执行如下代码，如果无法输出“end”，表明程序阻塞。 print('start') kv_store

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题

总条数： 436

上一页
1
...
11
12
13
...
22
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

自动模型优化介绍 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

日志提示“ Network is unreachable” - AI开发平台ModelArts

Standard推理部署 - AI开发平台ModelArts

使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

执行微调训练任务 - AI开发平台ModelArts

训练作业日志中提示 “AttributeError: module '' has no attribute ''” - AI开发平台ModelArts

日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线