搜索_华为云

使用窍门 - AI开发平台ModelArts
使用窍门 - AI开发平台ModelArts

使用窍门创建项目时，如何快速创建OBS桶及文件夹？自动学习生成的模型，存储在哪里？支持哪些其他操作？父主题：使用自动学习实现零代码AI开发

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发
查询训练日志 - AI开发平台ModelArts

查询训练日志示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。方式一：根据指定的job_id查询。 from modelarts.session import Session from

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
ma-cli image镜像构建支持的命令 - AI开发平台ModelArts

ag格式，针对于构建保存tar包场景可以省略。 --context String 否 Dockerfile构建时的上下文信息路径，主要用于数据复制。 -arg / --build-arg String 否指定构建参数，多个构建参数可以使用--build-arg VERSION=18

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
推理场景介绍 - AI开发平台ModelArts

28。版本使用的容器引擎为Containerd。推理部署使用的服务框架是vLLM。vLLM支持v0.6.0版本。支持FP16和BF16数据类型推理。 Lite k8s Cluster驱动版本推荐为23.0.6。适配的CANN版本是cann_8.0.rc3。资源规格要求本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
构造请求 - AI开发平台ModelArts
构造请求 - AI开发平台ModelArts

query-string 查询参数，可选，查询参数前面需要带一个“？”，形式为“参数名=参数取值”，例如“limit=10”，表示查询不超过10条数据。例如您需要获取“华北-北京一”区域的Token，则需使用“华北-北京一”区域的Endpoint（iam.cn-north-1.myhuaweicloud

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
代码运行常见错误 - AI开发平台ModelArts

代码运行常见错误 Notebook无法执行代码，如何处理？运行训练代码，出现dead kernel，并导致实例崩溃如何解决训练过程中出现的cudaCheckError错误？开发环境提示空间不足，如何解决？如何处理使用opencv.imshow造成的内核崩溃？使用Wind

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
查看训练作业日志 - AI开发平台ModelArts

查看训练作业日志训练日志定义训练日志用于记录训练作业运行过程和异常信息，为快速定位作业运行中出现的问题提供详细信息。用户代码中的标准输出、标准错误信息会在训练日志中呈现。在ModelArts中训练作业遇到问题时，可首先查看日志，多数场景下的问题可以通过日志报错信息直接定位。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
代码运行故障 - AI开发平台ModelArts

代码运行故障 Notebook运行代码报错，在'/tmp'中到不到文件 Notebook无法执行代码，如何处理？运行训练代码，出现dead kernel，并导致实例崩溃如何解决训练过程中出现的cudaCheckError错误？如何处理使用opencv.imshow造成的内核崩溃？

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备大模型推理适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
通过SSH工具远程使用Notebook - AI开发平台ModelArts

通过SSH工具远程使用Notebook 本节操作介绍在Windows环境中使用PuTTY SSH远程登录云上Notebook实例的操作步骤。前提条件创建一个Notebook实例，并开启远程SSH开发，配置远程访问IP白名单。该实例状态必须处于“运行中”，具体参见创建Notebook实例章节。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
创建Notebook实例 - AI开发平台ModelArts

实例的机器规格。如下规格仅供参照，实际支持规格以具体区域为准。 modelarts.vm.cpu.2u：Intel CPU通用规格，用于快速数据探索和实验。 modelarts.vm.cpu.8u：Intel CPU算力增强型，适用于密集计算场景下运算。 image_id 是 String

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
Lite Cluster资源配置流程 - AI开发平台ModelArts

LP的bert模型，详细代码和指导可参考Bert。拉取镜像。本测试镜像为bert_pretrain_mindspore:v1，已经把测试数据和代码打进镜像中。 docker pull swr.cn-southwest-2.myhuaweicloud.com/os-public-

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
多节点训练TensorFlow框架ps节点作为server会一直挂着，ModelArts是怎么判定训练任务结束？如何知道是哪个节点是worker呢？ - AI开发平台ModelArts

多节点训练TensorFlow框架ps节点作为server会一直挂着，ModelArts是怎么判定训练任务结束？如何知道是哪个节点是worker呢？ TensorFlow框架分布式训练的情况下，会启动ps与worker任务组，worker任务组为关键任务组，会以worker任务组的进程退出码，判断训练作业是否结束。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
迁移效果校验 - AI开发平台ModelArts

迁移效果校验在pipeline适配完成后，需要验证适配后的效果是否满足要求，通过对比原始onnx pipeline的最终输出结果确认迁移效果。如果精度和性能都没有问题，则代表迁移完成。对比图片生成效果在CPU上推理onnx，将原始onnx和适配完成的MindSpore Lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
准备镜像环境 - AI开发平台ModelArts

在进行训练任务中会给出替换命令。 /mnt/sfs_turbo 为宿主机中默认挂载SFS Turbo的工作目录，目录下存放着训练所需代码、数据等文件。同样，/mnt/sfs_turbo 也可以映射至容器中，作为容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。为方便访问两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910） > 准备工作
准备镜像环境 - AI开发平台ModelArts

在进行训练任务中会给出替换命令。 /mnt/sfs_turbo 为宿主机中默认挂载SFS Turbo的工作目录，目录下存放着训练所需代码、数据等文件。同样，/mnt/sfs_turbo 也可以映射至容器中，作为容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。为方便访问两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 准备工作
开启训练故障自动重启功能 - AI开发平台ModelArts

开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图1 开启故障重启断点续训练是通过checkpoint机制实现。c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU）本文介绍了使用训练作业的自定义镜像+自定义启动命令来启动PyTorch DDP on Ascend加速卡训练。前提条件需要有Ascend加速卡资源池。创建训练作业本案例创建训练作业时，需要配置如下参数。表1 创建训练作业的配置说明

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
推理场景介绍 - AI开发平台ModelArts

28。版本使用的容器引擎为Containerd。推理部署使用的服务框架是vLLM。vLLM支持v0.6.0版本。支持FP16和BF16数据类型推理。 Lite k8s Cluster驱动版本推荐为23.0.6。适配的CANN版本是cann_8.0.rc3。资源规格要求本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
模型调试 - AI开发平台ModelArts
模型调试 - AI开发平台ModelArts

模型调试训练完成后，可先在开发环境Notebook中创建本地模型，在开发环境Notebook调试完成后再部署到推理服务上。只支持使用ModelArts Notebook部署本地服务。示例代码在ModelArts Notebook平台，Session鉴权无需输入鉴权参数。其

 帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理

总条数： 1539

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用窍门 - AI开发平台ModelArts

查询训练日志 - AI开发平台ModelArts

ma-cli image镜像构建支持的命令 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

构造请求 - AI开发平台ModelArts

代码运行常见错误 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

代码运行故障 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

通过SSH工具远程使用Notebook - AI开发平台ModelArts

创建Notebook实例 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

多节点训练TensorFlow框架ps节点作为server会一直挂着，ModelArts是怎么判定训练任务结束？如何知道是哪个节点是worker呢？ - AI开发平台ModelArts

迁移效果校验 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

开启训练故障自动重启功能 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

模型调试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线