搜索_华为云

创建生产训练作业 - AI开发平台ModelArts

必选，选择“自定义”。镜像必填，填写容器镜像的地址。容器镜像地址的填写支持如下方式。选择自有镜像或他人共享的镜像：单击右边的“选择”，从容器镜像中选择用于训练的容器镜像。所需镜像需要提前上传到SWR服务中。选择公开镜像：直接输入SWR服务中公开镜像的地址。地址直接填写“组织名称/镜像名称:

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
更新资源池 - AI开发平台ModelArts

Integer 指定可用区扩容时，指定可用区的节点数。表17 network 参数参数类型描述 name String 网络名称；用户接口通过指定网络名称创建网络，系统会自动创建子网，用户无法创建子网。默认将创建在第一个子网下。表18 PoolDriver 参数参数类型描述 gpuVersion

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
SDK简介 - AI开发平台ModelArts
SDK简介 - AI开发平台ModelArts

ModelArts SDK支持在本地安装配置使用。使用时，需进行Session鉴权。本地安装SDK。如果本地未安装SDK，可参考（可选）本地服务器安装ModelArts SDK安装；如果本地已安装，则无需再次安装。进行Session鉴权。可参见（可选）Session鉴权完成鉴权。鉴权完成后，即可开始使用。

帮助中心 > AI开发平台ModelArts > SDK参考
查询Notebook实例详情 - AI开发平台ModelArts

FAILED：任务失败 COMPLETED：任务完成 step Integer 任务的步骤。枚举值如下: 1：准备存储 2：准备计算资源 3：配置网络 4：初始化实例 step_description String 任务某个步骤的描述。表4 EndpointsRes 参数参数类型描述

 帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
启动Notebook实例 - AI开发平台ModelArts

FAILED：任务失败 COMPLETED：任务完成 step Integer 任务的步骤。枚举值如下: 1：准备存储 2：准备计算资源 3：配置网络 4：初始化实例 step_description String 任务某个步骤的描述。表5 EndpointsRes 参数参数类型描述

 帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
通过公网访问通道的方式访问在线服务 - AI开发平台ModelArts

将为用户提供一个可调用的API，此API为标准Restful API。您可以在服务详情页面，调用指南页签中查看API接口公网地址。图1 API接口公网地址约束限制调用API访问在线服务时，对预测请求体大小和预测时间有限制：请求体的大小不超过12MB，超过后请求会被拦截。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
上传数据至OBS（首次使用时需要） - AI开发平台ModelArts

参考线下容器镜像构建及调试章节，构建容器镜像并调试，镜像构建及调试与单机单卡相同。上传镜像，参考单机单卡训练的上传镜像章节操作。操作步骤登录Imagenet数据集下载官网地址，下载Imagenet21k数据集：http://image-net.org/ 下载格式转换后的annotation文件：ILSVRC20

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
在推理生产环境中部署推理服务 - AI开发平台ModelArts

convert_eagle_ckpt_to_vllm_compatible.py --base-path 大模型权重地址 --draft-path 小模型权重地址 --base-weight-name 大模型包含lm_head的权重文件名 --draft-weight-name 小模型权重文件名

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

本教程中用到的模型软件包如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.912-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

本教程中用到的模型软件包如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.912-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作
在推理生产环境中部署推理服务 - AI开发平台ModelArts

convert_eagle_ckpt_to_vllm_compatible.py --base-path 大模型权重地址 --draft-path 小模型权重地址 --base-weight-name 大模型包含lm_head的权重文件名 --draft-weight-name 小模型权重文件名

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

evServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
ModelArts计费模式概述 - AI开发平台ModelArts

表1列出了两种计费模式的区别。表1 计费模式计费模式包年/包月按需计费付费方式预付费按照订单的购买周期结算。后付费按照云服务器实际使用时长计费。计费周期按订单的购买周期计费。秒级计费，按小时结算。适用计费项计算资源计算资源、云硬盘适用资源池专属资源池

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费模式
服务预测失败 - AI开发平台ModelArts

问题现象在线服务部署完成且服务已经处于“运行中”的状态，向服务发起推理请求，预测失败。原因分析及处理方法服务预测需要经过客户端、外部网络、APIG、Dispatch、模型服务多个环节。每个环节出现都会导致服务预测失败。图1 推理服务流程图出现APIG.XXXX类型的报错

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
msprobe精度分析工具使用指导 - AI开发平台ModelArts

对和梯度监控等功能。更多内容请参考msprobe工具介绍。一般场景的训练模型都是包括随机种子、数据集Shuffle、网络结构Dropout等操作的，目的是在网络阶段引入一定的随机性使得训练结果更加具有鲁棒性。然而在精度对齐阶段，这些随机性会导致训练运行结果每次表现不一致，无法进

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
MiniCPM-V2.0推理及LoRA微调基于DevServer适配PyTorch NPU指导（6.3.910） - AI开发平台ModelArts

evServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
Lite Cluster高危操作一览表 - AI开发平台ModelArts

点管理、扩缩容、驱动升级、带本地盘机型的本地盘数据丢失等。高不可恢复。修改网络安全组可能影响ModelArts侧基本功能，包括但不限于节点管理、扩缩容、驱动升级等。中改回原有内容。网络修改/删除集群关联网段。影响ModelArts侧基本功能，包括但不限于节点管理、扩缩容、驱动升级等。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

-aux查到的进程号，使用kill -9强制关闭进程。 sudo kill -9 <进程ID> 方法2：如果方法1执行后无法消除D+进程，请尝试重启服务器。父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
什么是ModelArts - AI开发平台ModelArts

箱即用，对预置大模型进行二次开发，用于生产商用。 ModelArts Lite-Server 面向云主机资源型用户，基于裸金属服务器进行封装，可以通过弹性公网IP直接访问操作服务器。适用于已经自建AI开发平台，仅有算力需求的用户，提供高性价比的AI算力，并预装主流AI开发套件以及自研的加速插件。

帮助中心 > AI开发平台ModelArts > 产品介绍
如何关闭Mox的warmup - AI开发平台ModelArts

的时候，会先执行“50steps” 4次，然后才会开始正式运行。 warmup即先用一个小的学习率训练几个epoch（warmup），由于网络的参数是随机初始化的，如果一开始就采用较大的学习率会出现数值不稳定的问题，这是使用warm up的原因。等到训练过程基本稳定之后就可以使用原先设定的初始学习率进行训练。

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing

总条数： 1023

上一页
1
...
20
21
22
...
52
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建生产训练作业 - AI开发平台ModelArts

更新资源池 - AI开发平台ModelArts

SDK简介 - AI开发平台ModelArts

查询Notebook实例详情 - AI开发平台ModelArts

启动Notebook实例 - AI开发平台ModelArts

通过公网访问通道的方式访问在线服务 - AI开发平台ModelArts

上传数据至OBS（首次使用时需要） - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

ModelArts计费模式概述 - AI开发平台ModelArts

服务预测失败 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

MiniCPM-V2.0推理及LoRA微调基于DevServer适配PyTorch NPU指导（6.3.910） - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

如何关闭Mox的warmup - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线