搜索_华为云

执行LoRA微调训练任务 - AI开发平台ModelArts

示例： #第一台节点 sh scripts/llama2/0_pl_lora_70b.sh xx.xx.xx.xx 4 0 # 第二台节点 sh scripts/llama2/0_pl_lora_70b.sh xx.xx.xx.xx 4 1 # 第三台节点 sh

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

ndSpeed 下执行启动脚本。示例： # 第一台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=4 NODE_RANK=0 sh scripts/llama2/0_pl_lora_70b.sh # 第二台节点 MASTER_ADDR=xx.xx.xx.xx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907）
查看作业详情 - AI开发平台ModelArts

如何查看训练作业资源占用情况？如何访问训练作业的后台？两个训练作业的模型都保存在容器相同的目录下是否有冲突？训练输出的日志只保留3位有效数字，是否支持更改loss值？训练好的模型是否可以下载或迁移到其他账号？如何获取下载路径？父主题： Standard训练作业

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

创建预测分析自动学习项目时，对训练数据有什么要求？使用从OBS选择的数据创建表格数据集如何处理Schema信息？物体检测或图像分类项目支持对哪些格式的图片进行标注和训练？父主题： Standard自动学习

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习
LLaVA模型基于DevServer适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

包名中的xxx表示具体的时间戳，以包名的实际时间为准。获取路径：Support-E 说明：如果没有下载权限，请联系您所在企业的华为方技术支持下载获取。基础镜像西南-贵阳一：swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorc

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
LLaMA-VID基于DevServer适配PyTorch NPU推理指导（6.3.910) - AI开发平台ModelArts

Arts 6.3.910 版本。说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。基础镜像包 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
FLUX.1基于DevServer适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

获取路径：Support-E 说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表2 基础容器镜像地址配套软件版本镜像用途镜像地址

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

本方案介绍了在ModelArts的Lite Cluster上使用昇腾计算资源部署ComfyUI用于推理的详细过程。完成本方案的部署，需要先联系您所在企业的华为方技术支持购买Cluster资源。本方案目前仅适用于企业客户，并且需要用户具备k8s集群相关技能。资源规格要求推荐使用“西南-贵阳一”Region上的Cluster资源

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
简介 - AI开发平台ModelArts
简介 - AI开发平台ModelArts

推理业务昇腾迁移整体流程及工具链图1 推理业务昇腾迁移整体路径推理业务昇腾迁移整体分为七个大的步骤，并以完整工具链覆盖全链路：迁移评估：针对迁移可行性、工作量，以及可能的性能收益进行大致的预估。环境准备：利用ModelArts提供的开发环境一键式准备好迁移、调测需要的运行环境与工具链。模型适配：针对昇腾迁移模型必要的转换和改造。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
Standard资源池节点故障定位 - AI开发平台ModelArts

is corrupted”告警。 A050109 GPU 其他 GPU其他错误。检测到的其他GPU错误，通常为硬件问题，请联系技术人员支持。 A050147 IB 链路 IB网卡异常。 ibstat查看网卡非Active状态。 A050121 NPU 其他 npu dcmi接口检测到driver异常。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
什么是Workflow - AI开发平台ModelArts

开发构建：使用python代码灵活编排构建工作流。调测：支持debug以及run两种模式，其中run模式支持节点部分运行、全部运行。发布：支持将调试后的工作流进行固化，发布至运行态，支持配置运行。实验记录：实验的持久化及管理。共享：支持将工作流作为资产发布至AI Gallery，分享给其他用户使用。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
管理Standard专属资源池 - AI开发平台ModelArts

扩缩容Standard专属资源池升级Standard专属资源池驱动修复Standard专属资源池故障节点修改Standard专属资源池支持的作业类型迁移Standard专属资源池和网络至其他工作空间配置Standard专属资源池可访问公网使用TMS标签实现资源分组管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
标注物体检测数据 - AI开发平台ModelArts

自动学习项目中，物体检测仅支持矩形标注框。在“资产管理 > 数据集”功能中，物体检测类型的数据集，支持更多类型的标注框。在标注窗口中，您可以滚动鼠标，放大或缩小图片，方便您快速定位到物体位置。图2 物体检测图片标注 “物体检测”类型的数据集，在标注时，支持在一张图片中添加多个标注

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
上传本地文件至JupyterLab - AI开发平台ModelArts

SDK或者Moxing完成。对于Notebook当前目录下已经有同文件名称的文件，可以覆盖继续上传，也可以取消。支持10个文件同时上传，其余文件显示“等待上传”。不支持上传文件夹，可以将文件夹压缩成压缩包上传至Notebook后，在Terminal中解压压缩包。 unzip xxx

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发 > 上传文件至JupyterLab
迁移过程使用工具概览 - AI开发平台ModelArts

Convertor、Benchmark和msprof。使用指导详见链接。模型转换工具离线转换模型功能的工具MSLite Convertor，支持onnx、pth、tensorflowLite多种类型的模型转换，转换后的模型可直接运行在MindSpore运行时后端，用于昇腾推理。精度性能检查工具

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

BS目录，SDK会将notebook目录code_dir打包上传到obs_path中。准备训练输出，与单机训练作业调试4相同。查看训练支持的AI框架，与单机训练作业调试5相同。保存当前Notebook为新镜像，与单机训练作业调试9相同。 Estimator初始化。 from

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
查询模型列表 - AI开发平台ModelArts

print(model_list) 参数说明表1 查询检索参数说明参数是否必选参数类型说明 model_name 否 String 模型名称，可支持模糊匹配。 model_version 否 String 模型版本。 model_status 否 String 模型状态，可根据模型的“

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
训练启动脚本说明和参数配置 - AI开发平台ModelArts

表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明参考

总条数： 1354

上一页
1
...
60
61
62
...
68
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

执行LoRA微调训练任务 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

查看作业详情 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

LLaVA模型基于DevServer适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

LLaMA-VID基于DevServer适配PyTorch NPU推理指导（6.3.910) - AI开发平台ModelArts

FLUX.1基于DevServer适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

简介 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

什么是Workflow - AI开发平台ModelArts

管理Standard专属资源池 - AI开发平台ModelArts

标注物体检测数据 - AI开发平台ModelArts

上传本地文件至JupyterLab - AI开发平台ModelArts

迁移过程使用工具概览 - AI开发平台ModelArts

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

查询模型列表 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线