搜索_华为云

查看日志和性能 - AI开发平台ModelArts

参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
查看日志和性能 - AI开发平台ModelArts

loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
创建模型时，OBS文件目录对应镜像里面的目录结构是什么样的？ - AI开发平台ModelArts

通过OBS导入模型时，ModelArts会将指定的OBS目录下的所有文件和文件夹复制到镜像中的指定路径下，镜像内路径可以通过self.model_path获取。处理方法获取镜像内的路径方法见模型推理代码编写说明。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
ModelArts的Notebook是否支持Keras引擎？ - AI开发平台ModelArts

Keras是一个用Python编写的高级神经网络API，它能够以TensorFlow、CNTK或者Theano作为后端运行。Notebook开发环境支持“tf.keras”。如何查看Keras版本在ModelArts管理控制台，创建一个Notebook实例，镜像选择“TensorFlow-1.13”或“TensorFlow-1

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
创建Notebook失败，查看事件显示JupyterProcessKilled - AI开发平台ModelArts

出现此故障是因为Jupyter进程被清理掉了，一般情况Notebook会自动重启的，如果没有自动重启，创建一直失败，请确认是否是自定义镜像的问题。解决方案排查是否是自定义镜像的问题。自定义镜像构建完成，在ModelArts镜像管理注册时，“架构”和“类型”需要和源镜像保持一致。图2 注册镜像

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
日志提示“root: XXX valid number is 0” - AI开发平台ModelArts

该日志表示数据集中的有效样本量为0，可能有如下原因：数据未标注。标注的数据是不符合规格的（如目标检测算法要求标注为矩形框，但是提供数据标注为非矩形框）。处理方法请您检查数据是否已标注，或检查数据标注是否符合算法要求。父主题：预置算法运行故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
创建Qwen2-0.5B或Qwen2-1.5B模型的LoRA微调类型的调优任务，显示创建失败 - AI开发平台ModelArts

attribute 'main_grad' 原因分析 Qwen2-0.5B或Qwen2-1.5B模型不支持也不建议PP切分。问题影响训练无法进行。处理方法对于Qwen2-0.5B或Qwen2-1.5B模型，LoRA微调时不支持PP切分。请将切分策略PP设置为1。父主题： Studio

帮助中心 > AI开发平台ModelArts > 常见问题 > Studio
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

理配置其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数及其他配置。具体优化工具使用说明可参考如何选择最佳性能的zero-stage和-offloads。父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
查询标注团队详情 - AI开发平台ModelArts

workforce_name String 标注团队名称。 workspace_id String 工作空间ID。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。请求示例查询标注团队详情 GET https://{endpoint}/v2/{project_id}/w

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查看日志和性能 - AI开发平台ModelArts

参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）
创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts

问题现象创建训练作业界面没有云存储名称和挂载路径这两个选项。原因分析用户的专属资源池没有进行网络打通，或者用户没有创建过SFS。处理方法在专属资源池列表中，单击资源池“ID/名称”，进入详情页。单击右上角“配置NAS VPC”，检查是否开启了NAS VPC。详情页面的“NAS

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
终止训练作业 - AI开发平台ModelArts

job_id"，或从查询训练作业列表的响应中获得。表2 返回参数说明参数参数类型描述 kind String 训练作业类型。默认使用job。枚举值： job：训练作业 hetero_job：异构作业 autosearch_job：自动搜索作业 mrs_job：mrs作业

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
管理Workflow StepExecution - AI开发平台ModelArts

数据约束条件。 value 否 Map<String,Object> 数据的值。 used_steps 否 Array of strings 使用了这条数据的工作流节点。 delay 否 Boolean 延时参数标记。表4 Constraint 参数是否必选参数类型描述 attribute

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
查询训练作业详情 - AI开发平台ModelArts

job_id"，或从查询训练作业列表的响应中获得。表2 get_job_info返回参数说明参数参数类型描述 kind String 训练作业类型。默认使用job。枚举值： job：训练作业 hetero_job：异构作业 autosearch_job：自动搜索作业 mrs_job：mrs作业

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
获取Workflow工作流列表 - AI开发平台ModelArts

of WorkflowSubgraph objects 工作流包含的子图。 extend Map<String,Object> 计费工作流使用的拓展字段。 policy WorkflowPolicy object 工作流部分运行策略。 with_subscription Boolean

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

理配置其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数及其他配置。具体优化工具使用说明可参考如何选择最佳性能的zero-stage和-offloads。父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
训练作业找不到GPU - AI开发平台ModelArts

no CUDA-capable device is detected 原因分析根据错误信息判断，报错原因为训练作业运行程序读取不到GPU。处理方法根据报错提示，请您排查代码，是否已添加以下配置，设置该程序可见的GPU： os.environ['CUDA_VISIBLE_DEVICES']

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错 - AI开发平台ModelArts

directory'). update products failed! 原因分析用户代码中设置的目标路径（local_path）有误。处理方法需要将local_path路径设置为文件夹且后缀必须以“/”结尾。父主题： API/SDK

帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
更新算法 - AI开发平台ModelArts
更新算法 - AI开发平台ModelArts

参数类型。 - continuous：指定时表示这个超参是连续类型的。连续类型的超参在算法使用于训练作业时，控制台显示为输入框。 - discrete：指定时表示这个超参是离散类型的。离散类型的超参在算法使用于训练作业时，控制台显示为下拉选择框架。 lower_bound 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理

总条数： 2314

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

创建模型时，OBS文件目录对应镜像里面的目录结构是什么样的？ - AI开发平台ModelArts

ModelArts的Notebook是否支持Keras引擎？ - AI开发平台ModelArts

创建Notebook失败，查看事件显示JupyterProcessKilled - AI开发平台ModelArts

日志提示“root: XXX valid number is 0” - AI开发平台ModelArts

创建Qwen2-0.5B或Qwen2-1.5B模型的LoRA微调类型的调优任务，显示创建失败 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

查询标注团队详情 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

创建训练作业界面无云存储名称和挂载路径排查思路 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

管理Workflow StepExecution - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

获取Workflow工作流列表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

训练作业找不到GPU - AI开发平台ModelArts

ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错 - AI开发平台ModelArts

更新算法 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线