搜索_华为云

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

&& \ chmod 770 /root && \ usermod -a -G root ma-user 其他现象，可以在已有的训练故障案例查找。建议与总结用户使用自定义镜像训练作业时，建议按照训练作业自定义镜像规范制作镜像。文档中同时提供了端到端的示例供用户参考。父主题：训练作业运行失败

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

包含了本教程中使用到的推理部署代码和推理评测代码、推理依赖的算子包。代码包具体说明请参见模型软件包结构说明。获取路径：Support-E，在此路径中查找下载ModelArts 6.3.910 版本。说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
终止训练作业 - AI开发平台ModelArts

String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。请求参数表2 请求Body参数参数是否必选参数类型描述 action_type 是 String 对训练作业的操

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
预训练任务 - AI开发平台ModelArts

执行训练启动命令后，等待模型载入，当出现“training”关键字时，表示开始训练。训练过程中，训练日志会在最后的Rank节点打印。图1 等待模型载入最后，请参考查看日志和性能章节查看预训练的日志和性能。父主题：主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）
SFT全参微调训练任务 - AI开发平台ModelArts

scripts/llama2/0_pl_sft_13b.sh 或者： sh scripts/llama2/0_pl_sft_13b.sh 最后，请参考查看日志和性能章节查看SFT微调的日志和性能。父主题：主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）
LoRA微调训练 - AI开发平台ModelArts

scripts/llama2/0_pl_lora_13b.sh 或者： sh scripts/llama2/0_pl_lora_13b.sh 最后，请参考查看日志和性能章节查看LoRA微调的日志和性能。父主题：主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）
使用预置镜像制作自定义镜像用于训练模型 - AI开发平台ModelArts

timeout = 120 在华为开源镜像站https://mirrors.huaweicloud.com/home中，搜索pypi，可以查看pip.conf文件内容。参考如下Dockerfile文件内容来基于ModelArts提供的训练基础镜像来构建一个新镜像。将编写好的Do

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
服务启动失败 - AI开发平台ModelArts

模型推理代码customize_service.py编写有问题如果模型推理代码customize_service.py编写有误，可以通过查看服务运行日志，定位具体原因进行修复。拉取镜像失败服务启动失败，提示拉取镜像失败，请参考服务部署、启动、升级和修改时，拉取镜像失败如何处理？

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
创建和管理团队 - AI开发平台ModelArts

在弹出的“添加团队”对话框中，填写团队“名称”和“描述”，然后单击“确定”。完成标注团队的添加。团队添加完成后，“标注团队”管理页面呈现新添加的团队，在页面右侧区域，可以查看团队详情。新添加的团队，其成员列表为空，请参考添加成员操作，为您的团队添加成员。添加成员在ModelArts管理控制台左侧导航栏中，选

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过团队标注方式标注数据
训练性能测试 - AI开发平台ModelArts

线配置，默认基线配置样例如下： --o <output_dir>： <可选>任务完成输出excel表格路径，默认为"./"当前所在路径。查看性能结果任务完成之后会在test-benchmark目录下生成excel表格：性能结果 LLaMAFactory_train_perf

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
执行训练任务（历史版本） - AI开发平台ModelArts

作业日志选择OBS中的路径，训练作业的日志信息则保存该路径下。最后，提交训练作业，训练完成后，请参考查看日志和性能章节查看SFT微调的日志和性能。了解更多ModelArts训练功能，可查看模型开发简介。父主题：执行训练任务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
执行训练任务 - AI开发平台ModelArts

3指使用0-3卡执行训练任务。训练成功标志 “***** train metrics *****”关键字打印训练完成后，请参考查看日志和性能章节查看指令微调的日志和性能。如训练过程中遇到“NPU out of memory”“Permission denied” 问题可参考附录：训练常见问题解决。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

it”的ID码。确认创建Notebook实例使用的镜像的系统架构，可以在Notebook中打开Terminal，通过命令uname -m查看。下载对应版本的vscode-server，根据Commit码和Notebook实例镜像架构下载。如果下载报错“Not Found”，请下载别的版本VS

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
从Manifest文件导入数据到数据集 - AI开发平台ModelArts

ard”属性中数据信息。图1 导入manifest文件导入成功后，数据将自动同步到数据集中。您可以在“数据集”页面，单击数据集的名称，查看详细数据，并可以通过创建标注任务进行数据标注。文件型数据标注状态数据标注状态分为“未标注”和“已标注”。未标注：仅导入标注对象（指待

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集 > 从OBS导入数据到ModelArts数据集
训练性能测试 - AI开发平台ModelArts

线配置，默认基线配置样例如下： --o <output_dir>： <可选>任务完成输出excel表格路径，默认为"./"当前所在路径。查看性能结果任务完成之后会在test-benchmark目录下生成excel表格：性能结果LLaMAFactory_train_perfo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
执行训练任务 - AI开发平台ModelArts

3指使用0-3卡执行训练任务。训练成功标志 “***** train metrics *****”关键字打印训练完成后，请参考查看日志和性能章节查看指令微调的日志和性能。 1、如训练过程中遇到“NPU out of memory”“Permission denied” 问题可参考

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
执行训练任务 - AI开发平台ModelArts

3指使用0-3卡执行训练任务。训练成功标志 “***** train metrics *****”关键字打印训练完成后，请参考查看日志和性能章节查看指令微调的日志和性能。 1、如训练过程中遇到“NPU out of memory”“Permission denied” 问题可参考

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
升级Lite Cluster资源池驱动 - AI开发平台ModelArts

登录ModelArts管理控制台，在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”，在“弹性集群”页面，选择“Lite资源池”页签，查看资源池列表。在资源池列表中，选择需要进行驱动升级的资源池“ > 驱动升级”。图1 驱动升级在“驱动升级”弹窗中，会显示当前专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
SD3基于Lite Server适配PyTorch NPU的训练指导（6.3.912） - AI开发平台ModelArts

C-6.3.912-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。获取路径：Support-E，在此路径中查找下载ModelArts 6.3.912 版本。说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
使用Msprobe工具分析偏差 - AI开发平台ModelArts

py中用等CPU侧初始化实现替换完成计算之后再切回device进行计算(下图第731行)。然后再比对分析发现所有API计算都已对齐结果，转而查看Loss对齐情况。父主题：精度对齐

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 精度对齐

总条数： 1378

上一页
1
...
60
61
62
...
69
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

使用预置镜像制作自定义镜像用于训练模型 - AI开发平台ModelArts

服务启动失败 - AI开发平台ModelArts

创建和管理团队 - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

从Manifest文件导入数据到数据集 - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

升级Lite Cluster资源池驱动 - AI开发平台ModelArts

SD3基于Lite Server适配PyTorch NPU的训练指导（6.3.912） - AI开发平台ModelArts

使用Msprobe工具分析偏差 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线