搜索_华为云

ma-cli ma-job训练作业支持的命令 - AI开发平台ModelArts

ma-cli ma-job训练作业支持的命令使用ma-cli ma-job命令可以提交训练作业，查询训练作业日志、事件、使用的AI引擎、资源规格及停止训练作业等。 $ ma-cli ma-job -h Usage: ma-cli ma-job [OPTIONS] COMMAND

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel）本章节介绍基于PyTorch引擎的多机多卡数据并行训练。并提供了分布式训练调测具体的代码适配操作过程和代码示例。同时还针对Resnet18在cifar10数据集上的分类任务，给出了分布式训练改造(DDP)的完整代码示例，供用户学习参考。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
增量模型训练 - AI开发平台ModelArts

增量模型训练什么是增量训练增量训练（Incremental Learning）是机器学习领域中的一种训练方法，它允许人工智能（AI）模型在已经学习了一定知识的基础上，增加新的训练数据到当前训练流程中，扩展当前模型的知识和能力，而不需要从头开始。增量训练不需要一次性存储所有的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
更新服务配置 - AI开发平台ModelArts

更新服务配置更新当前服务对象配置。示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数；其它平台的Session鉴权请参考Session鉴权。方式1：根据部署在线服务生成的服务对象进行更新服务配置 1 2 3 4 5 6 7

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
查询服务详情 - AI开发平台ModelArts

查询服务详情查询当前服务对象的详细信息。示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。方式1：根据部署在线服务生成的服务对象进行服务详情查询 1 2 3 4 5 6 7 from

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
查询训练作业列表 - AI开发平台ModelArts

查询训练作业列表示例代码在ModelArts Notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 from modelarts.session import Session from modelarts.estimatorV2

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备训练Llama2-13B模型适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。镜像地址本教程中用到的训练的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本训练基础镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
昇腾云服务6.3.910版本说明（推荐） - AI开发平台ModelArts

昇腾云服务6.3.910版本说明（推荐）本文档主要介绍昇腾云服务6.3.910版本配套的镜像地址、软件包获取方式和支持的特性能力。当前版本仅适用于华为公有云。配套的基础镜像芯片镜像地址获取方式镜像软件说明配套关系 Snt9B 西南-贵阳一 PyTorch： swr

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
昇腾云服务6.3.904版本说明 - AI开发平台ModelArts

昇腾云服务6.3.904版本说明昇腾云服务6.3.904版本发布支持的软件包和能力说明如下，软件包获取路径：Support-E网站。发布包软件包特性说明配套说明备注昇腾云模型代码三方大模型，包名：AscendCloud-3rdLLM PyTorch框架下支持如下模型训练：

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
自定义镜像故障 - AI开发平台ModelArts

自定义镜像故障 Notebook自定义镜像故障基础排查镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境
昇腾云服务6.3.908版本说明 - AI开发平台ModelArts

昇腾云服务6.3.908版本说明本文档主要介绍昇腾云服务6.3.908版本配套的镜像地址、软件包获取方式和支持的特性能力。当前版本仅适用于华为公有云。配套的基础镜像镜像地址获取方式镜像软件说明配套关系西南-贵阳一 PyTorch： swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
在MaaS中创建模型 - AI开发平台ModelArts

在MaaS中创建模型在ModelArts Studio大模型即服务平台使用基础模型创建个人专属模型。场景描述 MaaS提供了基于昇腾云算力适配的开源大模型，您可以使用这些基础模型，结合推荐的模型权重文件或自定义的模型权重文件，创建个人专属的模型。创建成功的模型可以在ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
显存溢出错误 - AI开发平台ModelArts

显存溢出错误在训练过程中，常见显存溢出报错，示例如下： RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

显存溢出错误在训练过程中，常见显存溢出报错，示例如下： RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

显存溢出错误在训练过程中，常见显存溢出报错，示例如下： RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU）本文介绍了使用训练作业的自定义镜像+自定义启动命令来启动PyTorch DDP on Ascend加速卡训练。前提条件需要有Ascend加速卡资源池。创建训练作业本案例创建训练作业时，需要配置如下参数。表1 创建训练作业的配置说明

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
数字人模型训练推理 - AI开发平台ModelArts

数字人模型训练推理 Wav2Lip推理基于DevServer适配PyTorch NPU推理指导（6.3.907） Wav2Lip训练基于DevServer适配PyTorch NPU训练指导（6.3.907）

帮助中心 > AI开发平台ModelArts > 最佳实践
管理员和开发者权限分离 - AI开发平台ModelArts

管理员和开发者权限分离对于中小规模团队，管理员希望对ModelArts资源进行主导分配，全局控制，而对于普通开发者只需关注自己实例的生命周期控制。对于开发者账号，一般不会具有te_admin的权限，相应的权限也需要主账号进行统一配置。本章节以使用Notebook进行项目开发为例

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
ModelArts CLI命令功能介绍 - AI开发平台ModelArts

ModelArts CLI命令功能介绍功能介绍 ModelArts CLI，即ModelArts命令行工具，是一个跨平台命令行工具，用于连接ModelArts服务并在ModelArts资源上执行管理命令。用户可以使用交互式命令行提示符或脚本通过终端执行命令。为了方便理解，下面将ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
使用自定义镜像创建的训练作业一直处于运行中 - AI开发平台ModelArts

使用自定义镜像创建的训练作业一直处于运行中问题现象使用自定义镜像创建训练作业，训练作业的“状态”一直处于“运行中”。原因分析及处理办法日志打印如下内容，表示自定义镜像的CPU架构与资源池节点的CPU架构不一致。 standard_init_linux.go:215: exec

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败

总条数： 2125

上一页
1
...
90
91
92
...
107
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ma-cli ma-job训练作业支持的命令 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

昇腾云服务6.3.910版本说明（推荐） - AI开发平台ModelArts

昇腾云服务6.3.904版本说明 - AI开发平台ModelArts

自定义镜像故障 - AI开发平台ModelArts

昇腾云服务6.3.908版本说明 - AI开发平台ModelArts

在MaaS中创建模型 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

数字人模型训练推理 - AI开发平台ModelArts

管理员和开发者权限分离 - AI开发平台ModelArts

ModelArts CLI命令功能介绍 - AI开发平台ModelArts

使用自定义镜像创建的训练作业一直处于运行中 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线