搜索_华为云

如何将本地标注的数据导入ModelArts？ - AI开发平台ModelArts

本地标注的数据，当前支持从OBS目录导入或从Manifest文件导入两种方式。导入之后您还可以在ModelArts数据管理模块中对数据进行重新标注或修改标注情况。从OBS目录导入或从Manifest详细操作指导和规范说明请参见导入数据。父主题： Standard数据准备

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
Notebook专属预置镜像列表 - AI开发平台ModelArts

nsorflow，MindSpore等常用AI引擎框架，镜像命名以AI引擎为主，并且每个镜像里面都预置了很多常用包，用户可以直接使用而无需重新安装。 ModelArts开发环境提供的预置镜像主要包含：常用预置包：基于标准的Conda环境，预置了常用的AI引擎，常用的数据分析软件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
执行训练任务（推荐） - AI开发平台ModelArts

sft：代表监督微调； pt：代表预训练； ckpt_load_type 1 可选【0、1、2】，默认为1 0：不加载权重 1：加载权重不加载优化器状态【增量训练】 2：加载权重且加载优化器状态【断点续训】详见断点续训和故障快恢说明 handler-name GeneralInstructionHandler

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

pt（预训练） √ √ sft（指令微调） √ √ 支持多种权重加载方式：不加载权重增量训练：加载权重，不加载优化器断点续训：加载权重+优化器，可自由指定训练输出目录下批次的权重故障快恢：加载权重+优化器，默认加载训练输出目录下最新的权重支持的模型列表本方案支持以下模型的训练，如表1所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912）
执行训练任务（推荐） - AI开发平台ModelArts

ellink 【必修改】ModelLink脚本相对或绝对路径，用于方便加载脚本 ckpt_load_type 1 【可选】默认为1 0，不加载权重 1，加载权重不加载优化器状态【增量训练】 2，加载权重且加载优化器状态【断点续训】详见断点续训和故障快恢说明 user_converted_ckpt_path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

检查containerd是否安装在创建CCE集群时，会选择 containerd 作为容器引擎，并默认给机器安装。如尚未安装，说明机器操作系统安装错误。需要重新纳管机器，重新安装操作系统。安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

worker阻塞的原因可能是连不上server。处理方法将如下代码放在“启动文件”里“import mxnet”之前可以看到节点间相互通信状态，同时ps能够重新发送。 import os os.environ['PS_VERBOSE'] = '2' os.environ['PS_RESEND'] =

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

内存不够”问题，最终导致该容器实例崩溃。出现此问题后，系统将自动重启Notebook，来修复实例崩溃的问题。此时只是解决了崩溃问题，如果重新运行训练代码仍将失败。如果您需要解决“内存不够”的问题，建议您创建一个新的Notebook，使用更高规格的资源池，比如专属资源池来运行此训练代码。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
创建Notebook实例后无法打开页面，如何处理？ - AI开发平台ModelArts

IAM用户获得权限后，登录ModelArts管理控制台，删除该实例，然后重新使用此OBS路径创建Notebook实例。报错503 如果出现503错误，可能是由于该实例运行代码时比较耗费资源。建议先停止当前Notebook实例，然后重新启动。报错504 如果报此错误时，请提工单或拨打热线电话

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
训练输出路径被其他作业使用 - AI开发平台ModelArts

其他作业使用。处理方法一个“训练输出路径”只能被一个处于“运行中”、“排队中”或“初始化”状态的作业使用。当出现此报错时，建议检查并重新填写训练作业的“训练输出路径”，以避免创建作业失败。父主题：云上迁移适配故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
自定义镜像模型部署为在线服务时出现异常 - AI开发平台ModelArts

later”，同时在“日志”页签中，无任何信息。图1 部署在线服务异常解决方法出现此问题现象，通常是因为您部署的模型过大导致的。解决方法如下：精简模型，重新导入模型和部署上线。购买专属资源池，在部署上线为在线服务时，使用专属资源池进行部署。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
模型推理代码编写说明 - AI开发平台ModelArts

__init__(self, model_name, model_path) 初始化方法，适用于深度学习框架模型。该方法内加载模型及标签等（pytorch和caffe类型模型必须重写，实现模型加载逻辑）。 __init__(self, model_path) 初始化方法，适用于机器学习框架模型。该方法内初始化模型的路径（self

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

已有50条训练作业，单击训练模块后的时间。 6秒日志加载作业运行中，已经输出1兆的日志文本，单击训练详情页面需要多久加载出日志。 2.5秒训练详情页作业运行中，没有用户日志情况下，在ModelArts控制台主页面单击训练详情页面后加载页面内容。 2.5秒 JupyterLab页面

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
订阅算法物体检测YOLOv3 - AI开发平台ModelArts

可能由于在发布数据集版本进行数据切分时，训练集比例填写为0导致发布的数据全部为验证集，所以出现上述报错。处理方法重新发布数据，切分比例为0.8 或者0.9重新创建训练作业进行训练。父主题：训练作业运行失败

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
如何登录并上传镜像到SWR？ - AI开发平台ModelArts

登录容器镜像服务控制台，选择区域。单击右上角“创建组织”，输入组织名称完成组织创建。您可以自定义组织名称，本示例使用“deep-learning”，实际操作时请重新命名一个组织名称。后续所有命令中使用到组织名称deep-learning时，均需要替换为此处实际创建的组织名称。单击右上角“登录指令”，获取登录访问指令。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
Prefix Caching - AI开发平台ModelArts

Cache的计算也是相同的；多轮对话场景中，每一轮对话需要依赖所有历史轮次对话的上下文，历史轮次中的KV Cache在后续每一轮中都要被重新计算。这两种情况下，如果能把system prompt和历史轮次中的KV Cache保存下来，留给后续的请求复用，将会极大地降低首Token的耗时。如果Prefix

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

这样重启Notebook实例后，Conda环境不会丢失。步骤如下: 创建新的虚拟环境并保存到SFS目录克隆原有的虚拟环境到SFS盘重新启动镜像激活SFS盘中的虚拟环境保存并共享虚拟环境前提条件创建一个Notebook，“资源类型”选择“专属资源池”，“存储配置”选择

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
迁移过程使用工具概览 - AI开发平台ModelArts

迁移过程使用工具概览基础的开发工具在迁移的预置镜像和开发环境中都已经进行预置，用户原则上不需要重新安装和下载，如果预置的版本不满足要求，用户可以执行下载和安装与覆盖操作。模型自动转换评估工具Tailor 为了简化用户使用，ModelArts提供了Tailor工具，将模型转换、

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
资源选择推荐 - AI开发平台ModelArts

已有50条训练作业，单击训练模块后的时间。 6秒日志加载作业运行中，已经输出1兆的日志文本，单击训练详情页面需要多久加载出日志。 2.5秒训练详情页作业运行中，没有用户日志情况下，在ModelArts控制台主页面单击训练详情页面后加载页面内容。 2.5秒 JupyterLab页面

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

检查containerd是否安装在创建CCE集群时，会选择 containerd 作为容器引擎，并默认给机器安装。如尚未安装，说明机器操作系统安装错误。需要重新纳管机器，重新安装操作系统。安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作

总条数： 487

上一页
1
2
3
4
5
...
25
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何将本地标注的数据导入ModelArts？ - AI开发平台ModelArts

Notebook专属预置镜像列表 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

创建Notebook实例后无法打开页面，如何处理？ - AI开发平台ModelArts

训练输出路径被其他作业使用 - AI开发平台ModelArts

自定义镜像模型部署为在线服务时出现异常 - AI开发平台ModelArts

模型推理代码编写说明 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

订阅算法物体检测YOLOv3 - AI开发平台ModelArts

如何登录并上传镜像到SWR？ - AI开发平台ModelArts

Prefix Caching - AI开发平台ModelArts

将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

迁移过程使用工具概览 - AI开发平台ModelArts

资源选择推荐 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线