搜索_华为云

不同模型推荐的参数与NPU卡数设置 - AI开发平台ModelArts

表1 不同模型推荐的参数与NPU卡数设置模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值优化工具 (Deepspeed) 规格与节点数 Qwen-VL Qwen-VL 7B full 2048 gradient_accumulation_steps:

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
Open-Sora 1.0基于Lite Server适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

通过Cloud Shell功能登录训练作业worker-0实例，使用curl {sfs-turbo-endpoint}:{port}命令检查port是否正常打开，SFS Turbo所需要入方向的端口号为111、445、2049、2051、2052、20048，具体请参见创建文件系统的“安全组”参数。Cloud

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
ModelArts - AI开发平台ModelArts
ModelArts - AI开发平台ModelArts

从0-1制作自定义镜像并创建AI应用 05 自动学习 ModelArts自动学习是帮助人们实现AI应用的低门槛、高灵活、零代码的定制化模型开发工具。自动学习简介自动学习功能介绍项目分类图像分类物体检测预测分析声音分类文本分类操作指导准备数据创建项目数据标注自动训练

 帮助中心 > AI开发平台ModelArts > 成长地图
从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

Step5 上传镜像至SWR服务 Step6 在ModelArts上创建训练作业前提条件已注册华为账号并开通华为云，且在使用ModelArts前检查账号状态，账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹在OBS服务中创建桶和文件夹，用于存放样例数据集以及训练代码。需

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
ModelArts - AI开发平台ModelArts
ModelArts - AI开发平台ModelArts

AI开发流程科普视频特性讲解昇腾云服务产品介绍 03:55 了解什么是昇腾云服务华为云ModelArts服务视频训练作业容错检查功能介绍 04:48 了解什么是训练作业容错检查功能华为云ModelArts服务视频高可用冗余节点功能介绍 03:07 了解什么是高可用冗余节点功能操作指导

 帮助中心 > AI开发平台ModelArts > 视频帮助
集成在线服务API至生产环境中应用 - AI开发平台ModelArts

线服务API，SDK调用方式请参见《SDK参考》>“场景1：部署在线服务Predictor的推理预测”。除此之外，您还可以使用常见的开发工具及开发语言调用此接口，建议通过互联网搜索并获取调用标准Restful API的指导。父主题：管理同步在线服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
示例：从 0 到 1 制作自定义镜像并用于训练（PyTorch+CPU/GPU） - AI开发平台ModelArts

Step5 上传镜像至SWR服务 Step6 在ModelArts上创建训练作业前提条件已注册华为账号并开通华为云，且在使用ModelArts前检查账号状态，账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹在OBS服务中创建桶和文件夹，用于存放样例数据集以及训练代码。需

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
查询AI应用详情 - AI开发平台ModelArts

String 健康检查接口路径。 period_seconds String 健康检查周期 failure_threshold String 健康检查最大失败次数 check_method String 健康检查方式：HTTP 或者 EXEC（命令行） command String 命令行命令，以空格分隔的字符串

 帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
模型训练高可靠性 - AI开发平台ModelArts

模型训练高可靠性训练作业容错检查训练日志失败分析训练作业卡死检测训练作业重调度设置断点续训练设置无条件自动重启父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

连接。更多Screen使用说明可参考Screen User's Manual。通过py-spy工具分析卡死进程的调用栈并结合代码分析定位卡死问题本文指导用户通过py-spy工具分析卡死进程的调用栈并结合代码分析定位卡死问题。在ModelArts Standard控制台，选择“模型训练>训练作业”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
查看训练作业资源占用情况 - AI开发平台ModelArts

情况。建议优化数据读取和数据增强的性能，例如将数据读取并行化，或者使用NVIDIA Data Loading Library（DALI）等工具提高数据增强的速度。模型保存不要太频繁：模型保存操作一般会阻塞训练，如果模型较大，并且较频繁地进行保存，就会影响GPU/NPU利用率。同

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

单击数据集名称左侧的，展开数据集，查看“导入状态”，导入状态为“导入完成”代表示数据集导入成功，且数据集正常。数据集下载完成后，请务必先检查数据集是否已经导入成功，如果数据集还未成功导入，创建自动学习物体检测项目后数据标注节点会报错。图2 数据标注节点报错步骤三：创建自动学习物体检测项目

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard自动学习
Lite Cluster使用流程 - AI开发平台ModelArts

等插件。完成Cluster资源池的购买后，您即可对资源进行配置，并将数据上传至存储云服务中。当您需要使用集群资源时，可以使用kubectl工具或k8s API来下发作业。此外，ModelArts还提供了扩缩容、驱动升级等功能，方便您对集群资源进行管理。图2 使用流程推荐您根据以下使用流程对Lite

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
入门案例：快速创建一个物体检测的数据集 - AI开发平台ModelArts

备。数据标注人工标注在“未标注”页签图片列表中，单击图片，自动跳转到标注页面。在标注页面的工具栏中选择合适的标注工具，本示例使用矩形框进行标注。图6 标注工具使用标注工具选中目标区域，在弹出的标签文本框中，直接输入新的标签名。如果已存在标签，从下拉列表中选择已有的标签。单击“添加”完成标注。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

-y”命令是用于在Linux操作系统上更新软件包的命令。其中，选项-y表示在更新时自动确认所有提示信息，而不需要手动输入“y”确认。请注意，使用此命令将会检查您系统中已安装的软件包并更新至最新版本。图1 yum命令历史查看NetworkManager配置： NetworkManager --print-config

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
训练迁移快速入门案例 - AI开发平台ModelArts

本文以弹性裸金属作为开发环境。弹性裸金属支持深度自定义环境安装，可以方便地替换驱动、固件和上层开发包，具有root权限，结合配置指导、初始化工具及容器镜像可以快速搭建昇腾开发环境。开通裸金属服务器资源请参见DevServer资源开通，在裸金属服务器上搭建迁移环境请参见裸金属服务器

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
训练作业运行失败排查指导 - AI开发平台ModelArts

generate a tmp label_map.pbtxt.”。如果使用的是AI Gallery订阅的算法，建议先检查数据的标签是否有问题。如果使用的是物体检测类算法，建议检查数据的label框是否为非矩形。物体检测类算法仅支持矩形label框。查看训练作业的“日志”，出现报错“RuntimeError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
精度问题概述 - AI开发平台ModelArts

是很常规的现象，并非错误。为了更好地了解这种计算差异，并且能够正确区分正常计算差异和引起模型精度问题的异常差异，本指南提供了算子问题定位工具集详细的使用场景和使用步骤，方便用户自行或在支持下排查可能的数值计算精度问题。当用户将大语言模型或者其他类型深度神经网络的训练从GPU迁

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

配置Cluster资源，确保可以通过公网访问Cluster机器，具体配置请参见配置Lite Cluster网络。 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理

总条数： 799

上一页
1
...
25
26
27
...
40
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

不同模型推荐的参数与NPU卡数设置 - AI开发平台ModelArts

Open-Sora 1.0基于Lite Server适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

ModelArts - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

ModelArts - AI开发平台ModelArts

集成在线服务API至生产环境中应用 - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（PyTorch+CPU/GPU） - AI开发平台ModelArts

查询AI应用详情 - AI开发平台ModelArts

模型训练高可靠性 - AI开发平台ModelArts

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

Lite Cluster使用流程 - AI开发平台ModelArts

入门案例：快速创建一个物体检测的数据集 - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

训练迁移快速入门案例 - AI开发平台ModelArts

训练作业运行失败排查指导 - AI开发平台ModelArts

精度问题概述 - AI开发平台ModelArts

SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线