搜索_华为云

查询训练作业详情 - AI开发平台ModelArts

Integer 可以选择的最大节点数量（max_num，为1代表不支持分布式）。 cpu Cpu object cpu规格信息。 gpu Gpu object gpu规格信息。 npu Npu object Ascend规格信息。 memory Memory object 内存信息。 disk

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
创建训练任务 - AI开发平台ModelArts

tools/run.sh 资源池：在“专属资源池”页签选择GPU规格的专属资源池。规格：选择8卡GPU规格。计算节点：1。 SFS Turbo：增加挂载配置，选择SFS名称，云上挂载路径为“/home/ma-user/work”。为了和Notebook调试时代码路径一致，保持相同的启

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
训练作业 - AI开发平台ModelArts
训练作业 - AI开发平台ModelArts

训练作业 OBS操作相关故障云上迁移适配故障硬盘限制故障外网访问限制权限问题 GPU相关问题业务代码问题预置算法运行故障训练作业运行失败专属资源池创建训练作业训练作业性能问题 Ascend相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除
在推理生产环境中部署推理服务 - AI开发平台ModelArts

功能）中部署推理服务。 Step1 准备模型文件和权重文件在OBS桶中，创建文件夹，准备模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。模型权重文件获取地址请参见支持的模型列表和权重文件。如果需要部署量化模型，请参考推理模型量

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
查询支持的镜像列表 - AI开发平台ModelArts

用户项目ID，获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 limit 否 Integer 每一页的数量，默认值200。 name 否 String 镜像名称，长度限制512个字符，支持小写字母、数字、中划线、下划线和点。 name_fuzzy_match

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
分布式模型训练 - AI开发平台ModelArts

创建单机多卡的分布式训练（DataParallel）创建多机多卡的分布式训练（DistributedDataParallel）示例：创建DDP分布式训练（PyTorch+GPU）示例：创建DDP分布式训练（PyTorch+NPU）父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
训练作业容错检查 - AI开发平台ModelArts

stack size > 8000 max user processes > 1000000 gpu检查 gpu-check 使用gpu，且使用v2训练引擎时（北京四暂无）检测到gpu 触发容错环境检测达到的效果容错检查正常通过时，会打印检测项目的日志，表示具体涉及的检查项目

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
查询训练作业列表 - AI开发平台ModelArts

Integer 可以选择的最大节点数量（max_num，为1代表不支持分布式）。 cpu cpu object cpu规格信息。 gpu gpu object gpu规格信息。 npu npu object Ascend规格信息。 memory memory object 内存信息。表39

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

--world_size <node_num>参数。启动文件需要解析上述参数。 PyTorch-GPU框架的代码示例，请参见示例：创建DDP分布式训练（PyTorch+GPU）中的方式一 TensorFlow-GPU框架启动原理单机场景下（即选择的实例数为1），ModelArts只会在一个节点

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
查询训练作业列表 - AI开发平台ModelArts

Integer 可以选择的最大节点数量（max_num，为1代表不支持分布式）。 cpu Cpu object cpu规格信息。 gpu Gpu object gpu规格信息。 npu Npu object Ascend规格信息。 memory Memory object 内存信息。 disk

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
ModelArts SDK、OBS SDK和MoXing的区别是什么？ - AI开发平台ModelArts

w、PyTorch、MXNet、MindSpore等深度学习引擎之上，使得这些计算引擎分布式性能更高，同时易用性更好。MoXing包含很多组件，其中MoXing Framework模块是一个基础公共组件，可用于访问OBS服务，和具体的AI引擎解耦，在ModelArts支持的所有A

帮助中心 > AI开发平台ModelArts > 常见问题 > API/SDK
AI Gallery功能介绍 - AI开发平台ModelArts

即时接入，即时体验”的效果。当开发者对希望对模型进行开发和训练，AI Gallery为零基础开发者，提供无代码开发工具，快速推理、部署模型；为具备基础代码能力的开发者，AI Gallery将复杂的模型、数据及算法策略深度融合，构建了一个高效协同的模型体验环境，让开发者仅需几行代

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
查询工作空间配额 - AI开发平台ModelArts

otas 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workspace_id 是 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。

帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
在推理生产环境中部署推理服务 - AI开发平台ModelArts

功能）中部署推理服务。 Step1 准备模型文件和权重文件在OBS桶中，创建文件夹，准备模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。模型权重文件获取地址请参见支持的模型列表和权重文件。如果需要部署量化模型，请参考推理模型量

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

换为您的OBS桶名称）。预下载至本地目录选择“不下载”。 “资源类型”：选择GPU单卡的规格。如果有免费GPU规格，可以选择免费规格进行训练。其他参数保持默认即可。本样例代码为单机单卡场景，选择GPU多卡规格会导致训练失败。单击“提交”，确认训练作业的参数信息，确认无误后单击“确定”。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练
查询资源池 - AI开发平台ModelArts

网。默认将创建在第一个子网下。表11 PoolDriver 参数参数类型描述 gpuVersion String GPU驱动版本，物理资源池中含有GPU规格时可填，例如："440.33"。 npuVersion String NPU驱动版本，物理资源池中含有ascend规格时可填，例如："C78"。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
更新资源池 - AI开发平台ModelArts

指定可用区扩容时，指定可用区的节点数。表9 PoolDriver 参数是否必选参数类型描述 gpuVersion 否 String GPU驱动版本，物理资源池中含有GPU规格时可填，例如："440.33"。 npuVersion 否 String NPU驱动版本，物理资源池中含有ascend规格时可填，例如："C78"。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
创建训练任务 - AI开发平台ModelArts

sh 资源池：在“专属资源池”页签选择GPU规格的专属资源池。规格：选择所需GPU规格。计算节点个数：选择需要的节点个数。 SFS Turbo：增加挂载配置，选择SFS名称，云上挂载路径为“/home/ma-user/work”。为了和Notebook调试时代码路径一致，保

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
附录：微调训练常见问题 - AI开发平台ModelArts

expandable_segments:True 将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-Z

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
删除资源池 - AI开发平台ModelArts

网。默认将创建在第一个子网下。表11 PoolDriver 参数参数类型描述 gpuVersion String GPU驱动版本，物理资源池中含有GPU规格时可填，例如："440.33"。 npuVersion String NPU驱动版本，物理资源池中含有ascend规格时可填，例如："C78"。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理

总条数： 618

上一页
1
...
15
16
17
...
31
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查询训练作业详情 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

训练作业 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

查询支持的镜像列表 - AI开发平台ModelArts

分布式模型训练 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

ModelArts SDK、OBS SDK和MoXing的区别是什么？ - AI开发平台ModelArts

AI Gallery功能介绍 - AI开发平台ModelArts

查询工作空间配额 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

查询资源池 - AI开发平台ModelArts

更新资源池 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

附录：微调训练常见问题 - AI开发平台ModelArts

删除资源池 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线