搜索_华为云

准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

训练脚本以分类的方式集中在 scripts 文件夹中。 ${workdir}（例如/home/ma-user/ws ） |──llm_train #解压代码包后自动生成的代码目录，无需用户创建 |── AscendSpeed

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905） > 准备工作
资源购买 - AI开发平台ModelArts
资源购买 - AI开发平台ModelArts

”作为存储位置，会创建云硬盘EVS。磁盘规格默认5GB，从Notebook实例创建成功开始，直至实例删除成功，磁盘每GB按照规定费用收费。云硬盘EVS会在创建Notebook实例时自动购买，无需用户单独创建。父主题：专属资源池训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
训练作业进程异常退出 - AI开发平台ModelArts

请排查安装包的版本，可能存在包冲突的问题。排查办法根据错误信息判断，报错原因来源于用户代码。您可以通过以下两种方式排查：线上环境调试代码（仅适用于非分布式代码）在开发环境（notebook）申请相同规格的开发环境实例。在notebook调试用户代码，并找出问题的代码段。通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。，

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
单模型性能调优AOE - AI开发平台ModelArts

进行操作，以达到较好的优化效果（第一次执行生成AOE的知识库，在第二次使用时可以复用）。在该场景中，AOE对text_encoder等模型提升效果不大，性能主要瓶颈点在unet模型中，主要对unet模型做调优，整体的操作步骤如下：转换前先清理缓存，避免转换时的影响。 # shell

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 性能调优
msprobe梯度监控 - AI开发平台ModelArts

来，用以分析问题，例如检测确定性问题，使用训练状态监控工具监控NPU训练过程中的确定性计算问题。将两份梯度数据进行相似度对比。在有标杆问题中，可以确认训练过程中精度问题出现的Step，以及抓取反向过程中的问题。使用步骤如下：通过pip安装msprobe工具。 # shell

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
ModelArts Standard资源管理 - AI开发平台ModelArts

ModelArts Standard资源管理 Standard资源池功能介绍创建Standard专属资源池管理Standard专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

emory等）的使用情况并上报到AOM，用户可直接在AOM上查看默认配置好的基础指标，也支持用户自定义一些指标项上报到AOM查看。此外，还支持在ModelArts Lite Cluster上安装Prometheus开源监控工具，方便用户使用Prometheus工具在Lite C

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
AI Gallery（旧版） - AI开发平台ModelArts

AI Gallery（旧版） AI Gallery简介免费资产和商用资产入驻AI Gallery 我的Gallery介绍订阅使用发布分享参加活动合作伙伴需求广场

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery）
ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

后json日志或打屏日志直接打印性能结果，免于计算，方便用户验证发布模型的质量。并且新的训练方式将统一管理训练日志、训练结果和训练配置，使用yaml配置文件方便用户根据自己实际需求进行修改。权重文件支持以下组合方式，用户根据自己实际要求选择：训练stage 不加载权重增量训练：加载权重，不加载优化器

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 执行训练任务
Yaml配置文件参数配置说明 - AI开发平台ModelArts

文件将保存在这个目录下 logging_steps 2 用于指定模型训练过程中，多少步输出一次日志。日志包括了训练进度、学习率、损失值等信息。建议设置 save_steps 5000 指定模型训练过程中，每多少步保存一次模型。保存的模型可以用于后续的训练或推理任务 plot_loss

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
yaml配置文件参数配置说明 - AI开发平台ModelArts

志文件将保存在这个目录下 logging_steps 2 用于指定模型训练过程中，多少步输出一次日志。日志包括了训练进度、学习率、损失值等信息。建议设置 save_steps 500 指定模型训练过程中，每多少步保存一次模型。保存的模型可以用于后续的训练或推理任务 plot_loss

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
Notebook提示磁盘空间已满 - AI开发平台ModelArts

磁盘配额不足。处理方法查看虚拟机所使用的存储空间，再查看回收站文件占用内存，根据实际删除回收站里不需要的大文件。在Notebook实例详情页，查看实例的存储容量。执行如下命令，排查虚拟机所使用的存储空间，一般接近存储容量，请排查回收站占用内存。 cd /home/ma-user/work

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
Yaml配置文件参数配置说明 - AI开发平台ModelArts

文件将保存在这个目录下 logging_steps 2 用于指定模型训练过程中，多少步输出一次日志。日志包括了训练进度、学习率、损失值等信息。建议设置 save_steps 5000 指定模型训练过程中，每多少步保存一次模型。保存的模型可以用于后续的训练或推理任务 plot_loss

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
使用Workflow实现低代码AI开发 - AI开发平台ModelArts

使用Workflow实现低代码AI开发什么是Workflow 运行第一条Workflow 管理Workflow 开发第一条Workflow 开发Workflow命令参考

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
Yaml配置文件参数配置说明 - AI开发平台ModelArts

logging_steps 2 用于指定模型训练过程中，多少步输出一次日志。日志包括了训练进度、学习率、损失值等信息。建议设置 max_steps 5000 非必填。表示训练step迭代次数。会自动计算得出。 save_steps 5000 指定模型训练过程中，每多少步保存一次模型。保存的模型可以用于后续的训练或推理任务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
Yaml配置文件参数配置说明 - AI开发平台ModelArts

文件将保存在这个目录下 logging_steps 2 用于指定模型训练过程中，多少步输出一次日志。日志包括了训练进度、学习率、损失值等信息。建议设置 save_steps 5000 指定模型训练过程中，每多少步保存一次模型。保存的模型可以用于后续的训练或推理任务 plot_loss

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
Finetune训练 - AI开发平台ModelArts

启动SD1.5 Finetune训练服务使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_finetune_train.sh 启动SDXL Finetune训练服务使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_sdxl_finetune_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于Lite Server适配PyTorch NPU训练指导（6.3.908）
订阅使用 - AI开发平台ModelArts
订阅使用 - AI开发平台ModelArts

订阅使用查找和收藏资产订阅免费算法订阅免费模型下载数据使用Notebook代码样例使用镜像使用AI案例订阅Workflow 父主题： AI Gallery（旧版）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
发布分享 - AI开发平台ModelArts
发布分享 - AI开发平台ModelArts

发布分享发布免费算法发布免费模型发布数据发布Notebook 父主题： AI Gallery（旧版）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
参加活动 - AI开发平台ModelArts
参加活动 - AI开发平台ModelArts

参加活动报名实践活动（实践）发布技术文章（AI说）父主题： AI Gallery（旧版）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）

总条数： 2470

上一页
1
...
89
90
91
...
124
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备代码 - AI开发平台ModelArts

资源购买 - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

单模型性能调优AOE - AI开发平台ModelArts

msprobe梯度监控 - AI开发平台ModelArts

ModelArts Standard资源管理 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

AI Gallery（旧版） - AI开发平台ModelArts

ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

yaml配置文件参数配置说明 - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

使用Workflow实现低代码AI开发 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

订阅使用 - AI开发平台ModelArts

发布分享 - AI开发平台ModelArts

参加活动 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线