搜索_华为云

预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

sh 如果镜像使用ECS中构建新镜像构建的新镜像时，训练作业启动命令中输入： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/obs_pipeline.sh Step2 配置数据输入和输出单击“增加

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
LoRA微调训练 - AI开发平台ModelArts

sh 如果镜像使用ECS中构建新镜像构建的新镜像时，训练作业启动命令中输入： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/obs_pipeline.sh Step2 配置数据输入和输出单击“增加

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
SFT全参微调训练 - AI开发平台ModelArts

sh 如果镜像使用ECS中构建新镜像构建的新镜像时，训练作业启动命令中输入： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/obs_pipeline.sh Step2 配置数据输入和输出单击“增加

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
非分离部署推理服务 - AI开发平台ModelArts

"software|firmware" #查看驱动和固件版本如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。检查docker是否安装。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
Notebook时长续约 - AI开发平台ModelArts

Notebook实例ID，可通过调用查询Notebook实例列表接口获取。 project_id 是 String 用户项目ID，获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 duration 否 Long 续订时长，推荐该参数在leaseReq中配置，

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
自定义镜像规范 - AI开发平台ModelArts

次数、LOSS和吞吐数据按照“迭代次数|loss|吞吐”格式记录在日志中，AI Gallery通过环境变量找到日志，从中获取实际数据绘制成“吞吐”和“训练LOSS”曲线，呈现在训练的“指标效果”中。具体请参见查看训练效果。说明：日志文件中的迭代次数、LOSS和吞吐数据必须按照

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

拉取镜像。本测试镜像为bert_pretrain_mindspore:v1，已经把测试数据和代码打进镜像中。 docker pull swr.cn-southwest-2.myhuaweicloud.com/os-public-repo/bert_pretrain_mindspore:v1 docker

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
训练网络迁移总结 - AI开发平台ModelArts

好的对比标杆。如果是NPU上全新开发的网络，请参考PyTorch迁移精度调优排查溢出和精度问题。理解GPU和NPU的构造以及运行的差别，有助于在迁移过程中分析问题并发挥NPU的优势。由于构造和运行机制的差别，整个迁移过程并非是完全平替，GPU在灵活性上有其独特的优势，而NPU上

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

文件，OBS接口不支持直接调用，需要分多个线程分段复制，目前OBS侧服务端超时时间是30S，可以通过如下设置减少进程数。 # 设置进程数 os.environ['MOX_FILE_LARGE_FILE_TASK_NUM']=1 import moxing as mox # 复制文件

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
FlUX.1基于Lite Server适配PyTorch NPU推理指导（6.3.912） - AI开发平台ModelArts

1-pro、FLUX.1-dev和FLUX.1-schnell。方案概览本方案介绍了在ModelArts Lite Server上使用昇腾计算资源Ascend Snt9B开展Flux模型的FLUX.1-dev版本分别使用ComfyUI 0.2.2和Diffusers 0.30.2框架的推理过程。另外，FLUX

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
非分离部署推理服务 - AI开发平台ModelArts

"software|firmware" #查看驱动和固件版本如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。检查docker是否安装。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

"software|firmware" #查看驱动和固件版本如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。检查docker是否安装。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
从Manifest文件导入规范说明 - AI开发平台ModelArts

从Manifest文件导入规范说明 Manifest文件中定义了标注对象和标注内容的对应关系。此导入方式是指导入数据集时，使用Manifest文件。选择导入Manifest文件时，可以从OBS导入。当从OBS导入Manifest文件时，需确保当前用户具备Manifest文件所在OBS路径的权限。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集 > 从OBS导入数据到ModelArts数据集
SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912） - AI开发平台ModelArts

本文基于diffusers和comfyui两个框架进行适配。方案概览本方案介绍了在ModelArts Lite Server上使用昇腾计算资源Ascend Snt9B开展SD3.5模型的推理过程。资源规格要求推荐使用“西南-贵阳一”Region上的Server资源和Ascend Snt9B单机。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
查询用户镜像组列表 - AI开发平台ModelArts

project_id 是 String 用户项目ID，获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 name 否 String 镜像名称，长度限制512个字符，支持小写字母、数字、中划线、下划线和点。 name_fuzzy_match 否 Boolean 镜像名称是否模糊匹配，默认为true。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
查询资源实时利用率 - AI开发平台ModelArts

project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求参数无响应参数状态码：200 表2 响应Body参数参数参数类型描述 apiVersion String 资源版本。可选值如下： os.modelarts.xxxxx/v2 kind String

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
配置多分支节点数据 - AI开发平台ModelArts

# 训练使用的算法对象，示例中使用AIGallery订阅的算法；部分算法超参的值如果无需修改，则在parameters字段中可以不填写，系统自动填充相关超参值 inputs=wf.steps.JobInput(name="data_url", data=obs_data)

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

py并将此脚本作为“启动文件”。这样启动的作业将会持续运行60分钟。您可通过Cloud Shell进入容器进行调试。 sleep.py示例： import os os.system('sleep 60m') 图4 预置框架启动方式如果训练作业使用的是自定义镜像在创建训练作业时，“创建方式”选择“自

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
离线训练安装包准备说明 - AI开发平台ModelArts

若用户的机器或资源池无法连通网络，并无法git clone下载代码、安装python依赖包的情况下，用户则需要找到已联网的机器（本章节以Linux系统机器为例）提前下载资源，以实现离线安装。用户可遵循以下步骤：步骤一：资源下载 Python依赖包下载：进入 scripts/install

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
使用MoXing复制数据报错 - AI开发平台ModelArts

径。检查使用的资源是否为CPU，CPU的“/cache”与代码目录共用10G，可能是空间不足导致，可在代码中使用如下命令查看磁盘大小。 os.system('df -hT') 磁盘空间满足，请执行5。磁盘空间不足，请您使用GPU资源。如果是在Notebook使用MoXing

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing

总条数： 811

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

Notebook时长续约 - AI开发平台ModelArts

自定义镜像规范 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

训练网络迁移总结 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

FlUX.1基于Lite Server适配PyTorch NPU推理指导（6.3.912） - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

从Manifest文件导入规范说明 - AI开发平台ModelArts

SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912） - AI开发平台ModelArts

查询用户镜像组列表 - AI开发平台ModelArts

查询资源实时利用率 - AI开发平台ModelArts

配置多分支节点数据 - AI开发平台ModelArts

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

离线训练安装包准备说明 - AI开发平台ModelArts

使用MoXing复制数据报错 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线