搜索_华为云

查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
训练的数据集预处理说明 - AI开发平台ModelArts

--workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

创建文件越快，越容易触发（机制大概是：有一个缓存，这块大小和上面的1和2有关，目录下文件数量比较大时会启动，使用方式是边用边释放）处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
获取项目ID和名称 - AI开发平台ModelArts

获取项目ID的接口为GET https://{iam-endpoint}/v3/projects，其中{iam-endpoint}为IAM的终端节点，可以从地区和终端节点处获取。响应示例如下，例如ModelArts部署的区域为"cn-north-4"，响应消息体中查找“name”为"cn-

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
如何禁止Ubuntu 20.04内核自动升级？ - AI开发平台ModelArts

”改为“Unattended-Upgrade "0";”以禁用自动更新，然后保存文件并退出。将当前内核版本锁定。要禁止特定的内核版本更新，您可以使用“apt-mark”命令将其锁定。首先，检查当前的内核版本： uname -r 例如，如果内核版本是“5.4.0-42-generi

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
训练的数据集预处理说明 - AI开发平台ModelArts

--workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

/home/ma-user && \ chmod 770 /root && \ usermod -a -G root ma-user 其他现象，可以在已有的训练故障案例查找。建议与总结用户使用自定义镜像训练作业时，建议按照训练作业自定义镜像规范制作镜像。文档中同时提供了端到端的示例供用户参考。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
配置多分支节点数据 - AI开发平台ModelArts

), # 训练使用的算法对象，示例中使用AIGallery订阅的算法；部分算法超参的值如果无需修改，则在parameters字段中可以不填写，系统自动填充相关超参值 inputs=wf.steps.JobInput(name="data_url", data=obs_data)

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
msprobe精度分析工具使用指导 - AI开发平台ModelArts

cuDNN仅使用确定性的卷积算法。工具固定（Dropout） Dropout的实质是以一定概率使得输入网络的数据某些位置元素的数值变为0，这样可以使得模型训练更加有效。但在精度问题的定位过程之中，需要避免产生这种问题，因此需要关闭Dropout。在导入PrecisionDebugg

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
使用MoXing复制数据报错 - AI开发平台ModelArts

system('df -hT') 磁盘空间满足，请执行5。磁盘空间不足，请您使用GPU资源。如果是在Notebook使用MoXing复制数据不成功，可以在Terminal界面中使用df -hT命令查看空间大小，排查是否因空间不足导致，可在创建Notebook时使用EVS挂载。如果代码写作

 帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
动态shape - AI开发平台ModelArts
动态shape - AI开发平台ModelArts

predict(inputs)[0].get_data_to_numpy() print(outputs.shape) # (8, 1000) 动态分辨率动态分辨率可以用于设置输入图片的动态分辨率参数。适用于执行推理时，每次处理图片宽和高不固定的场景，该参数需要与input_shape配合使用，input

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 模型适配
升级Lite Cluster资源池驱动 - AI开发平台ModelArts

当前支持“按节点比例”和“按实例数量”两种滚动方式。按节点比例：每批次驱动升级的实例数量为“节点比例*资源池实例总数”。按实例数量：可以设置每批次驱动升级的实例数量。对于不同的升级方式，滚动升级选择实例的策略会不同：如果升级方式为安全升级，则根据滚动节点数量选择无业务的节点，隔离节点并滚动升级。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
分布式训练功能介绍 - AI开发平台ModelArts

约束限制总览页面打开的CodeLab不支持此项功能，但是如果用户在AI Hub中打开了可用的案例，会自动跳转到CodeLab中，此时是可以使用这项功能的。如果切换了Notebook的规格，那么只能在Notebook进行单机调测，不能进行分布式调测，也不能提交远程训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
创建ModelArts数据校验任务 - AI开发平台ModelArts

填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成，按“V0001”、“V0002”规则命名，用户无法修改。您可以根据实际情况填写“名称”和“描述”信息。图1 创建数据处理基本信息设置场景类别。场景类别当前支持“图像分类”和“物体检测”。设置数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
配置Workflow参数 - AI开发平台ModelArts

dict required 参数是否必填标记。默认required=True。 Delay参数不能设required=False。运行时前端可以不填此参数。否 bool 使用案例 int类型参数 from modelarts import workflow as wf wf.Pl

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
查询训练作业列表 - AI开发平台ModelArts

调用成功时无此字段。 job_total_count Integer 查询到的用户创建作业总数。 job_count_limit Integer 用户还可以创建训练作业的数量。 jobs jobs结构数组训练作业的属性列表，具体请参见表4。 quotas Integer 训练作业的运行数量上限。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
创建处理任务 - AI开发平台ModelArts

“数据增强”表示通过简单的数据扩增例如缩放、裁剪、变换、合成等操作直接或间接的方式增加数据量。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{projec

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）

总条数： 2092

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看日志和性能 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

获取项目ID和名称 - AI开发平台ModelArts

如何禁止Ubuntu 20.04内核自动升级？ - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

配置多分支节点数据 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

使用MoXing复制数据报错 - AI开发平台ModelArts

动态shape - AI开发平台ModelArts

升级Lite Cluster资源池驱动 - AI开发平台ModelArts

分布式训练功能介绍 - AI开发平台ModelArts

创建ModelArts数据校验任务 - AI开发平台ModelArts

配置Workflow参数 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

创建处理任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线