搜索_华为云

预训练任务 - AI开发平台ModelArts

localhost 1 0; # 单机训练执行命令步骤四根据config.yaml启动作业启动作业命令如下。首先会根据config.yaml创建pod，继而在pod容器内自动启动训练作业。 kubectl apply -f config.yaml 启动后，可通过以下命令获取所

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911）
简介 - AI开发平台ModelArts
简介 - AI开发平台ModelArts

Lite过程中遇到问题时，可参考MindSpore Lite官网提供的问题定位指南进行问题定位。迁移路线介绍当前推理迁移时，不同的模型类型可能会采取不同的迁移技术路线。主要分为以下几类： 1. CV类小模型例如yolov5，以及部分AIGC场景的模型迁移，目前推荐使用MindSpore-Lite推理路线，可以

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

sh，具体修改代码内容以及位置，如下所示。训练作业中存在2个代码目录，一个是从OBS上传到ModelArts Standard训练容器中的代码目录OBS_CODE_DIR，一个是后续构建新镜像步骤ECS中构建新镜像中镜像的代码目录CODE_DIR。修改代码如图1。图1 修改区分训练作业中2个代码目录使用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 准备工作
Standard资源池功能介绍 - AI开发平台ModelArts

用户下发训练作业、部署模型、使用开发环境实例等，均可以使用ModelArts提供的公共资源池完成，按照使用量计费，方便快捷。专属资源池和公共资源池的能力主要差异如下：专属资源池为用户提供独立的计算集群、网络，不同用户间的专属资源池物理隔离，公共资源池仅提供逻辑隔离，专属资源池的隔离性、安全性要高于公共资源池。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
快速配置ModelArts委托授权 - AI开发平台ModelArts

覆盖了依赖服务的全部权限。如果您需要对委托授权的权限范围进行精确控制，请使用定制化委托授权。更多权限控制的内容请参见权限管理章节。本章节主要介绍一键式自动授权方式。一键式自动授权方式支持给IAM子用户、联邦用户（虚拟IAM用户）、委托用户和所有用户授权。约束与限制华为云账号

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作 > 配置ModelArts Standard访问授权
部署在线服务 - AI开发平台ModelArts

gpu.p4(需申请)/modelarts.vm.ai1.a310(需申请)，需申请权限才能使用的规格请在华为云创建工单，由ModelArts运维工程师添加权限。 instance_count 是 Integer 模型部署的实例数，当前限制最大实例数为128，如需使用更多的实例数，需提交工单申请。

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
部署的在线服务状态为告警 - AI开发平台ModelArts

题。模型运行异常。请检查您的模型是否能正常运行。例如模型依赖的资源是否故障，需要排查推理日志。实例pod数量异常。如果您曾经找过运维人员删除过异常的实例pod，事件中可能会出现告警“服务异常，不正常的实例数为XXX”。在出现这种告警后，服务会自动拉起新的正常实例，从而恢复到正常运行状态。请您耐心等待。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
自定义镜像规范 - AI开发平台ModelArts

s|吞吐”格式记录在日志中，AI Gallery通过环境变量找到日志，从中获取实际数据绘制成“吞吐”和“训练LOSS”曲线，呈现在训练的“指标效果”中。具体请参见查看训练效果。说明：日志文件中的迭代次数、LOSS和吞吐数据必须按照“迭代次数|loss|吞吐”格式存放，否则AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

（可选）工作空间配置模型训练本地构建镜像及调试上传镜像上传数据和算法到OBS 使用Notebook进行代码调试创建单机单卡训练作业监控资源本地构建镜像及调试本节通过打包conda env来构建环境，也可以通过pip install、conda install等方式安装conda环境依赖。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
AI Gallery简介 - AI开发平台ModelArts

伙伴一起构建合作共赢的AI生态体系。 AI Gallery使用限制目前自动学习产生的模型暂不支持发布到AI Gallery。订阅或购买主要是获取AI资产的使用配额和使用权，支持在配额定义的约束下，有限地使用AI资产。使用AI资产时，可能需要消耗硬件资源，硬件资源费用将根据实

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
VS Code一键连接Notebook - AI开发平台ModelArts

对于打开的代码文件，单击run按钮，即可执行，可以在下方的Terminal中看到代码输出信息。如果执行较长时间的训练作业，建议使用nohup命令后台运行，否则SSH窗口关闭或者网络断连会影响正在运行的训练作业，命令参考： nohup your_train_job.sh > output.log 2>&1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
Lite Server使用流程 - AI开发平台ModelArts

可在BMS服务控制台上完成。更多裸金属服务器的介绍请见裸金属服务器 BMS。 xPU xPU泛指GPU和NPU。 GPU，即图形处理器，主要用于加速深度学习模型的训练和推理。 NPU，即神经网络处理器，是专门为加速神经网络计算而设计的硬件。与GPU相比，NPU在神经网络计算方面具有更高的效率和更低的功耗。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

ModelArts网络关联SFS Turbo SFS Turbo模式下执行流程 SFS Turbo作为完全托管的共享文件存储系统，在本方案中作为主要的存储介质应用于训练作业。因此，后续需要准备的原始数据集、原始Hugging Face权重文件以及训练代码都需要上传至SFS Turbo中。而基于SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
工作空间 - AI开发平台ModelArts
工作空间 - AI开发平台ModelArts

制该工作空间被指定学生访问，这样可使得学生可独立完成在ModelArts上的实验。企业场景：管理者可创建用于生产任务的工作空间并限制仅让运维人员使用，用于日常调试的工作空间并限制仅让开发人员使用。通过这种方式让不同的企业角色只能在指定工作空间下使用资源。目前工作空间功能是“受

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

高模型的性能。 LoRA微调LoRA(Low-Rank Adaptation)：微调是一种用于调整大型预训练模型的高效微调技术。这种方法主要针对如何在保持模型大部分参数固定的同时，通过引入少量可训练参数来调整模型以适应特定任务。本方案目前仅适用于部分企业客户，完成本方案的部署

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
部署模型为在线服务 - AI开发平台ModelArts

默认关闭。如需开启此功能，请参见通过APP认证的方式访问在线服务了解详情并根据实际情况进行设置。 “订阅消息” - 订阅消息使用消息通知服务，在事件列表中选择需要监控的服务状态，在事件发生时发送消息通知。可选：配置高级选项。表3 高级选项参数说明参数名称说明故障自动重启开启该功能后，系统检测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
infiniband驱动的安装 - AI开发平台ModelArts

可能部分区域的网卡较新，会出现更高版本的infiniband驱动版本，如果您遇到了infiniband驱动安装后，仍然无法使能infiniband网卡的问题，可以咨询相关运维人员以确认宿主机的实际infiniband驱动版本。图1 下载驱动参考如下Dockerfile中，以在容器镜像中安装infiniband驱动。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
使用自定义引擎在ModelArts Standard创建模型 - AI开发平台ModelArts

-p 8080:8080 -v model:/home/mind/model custom_engine:v1 该指令无法完全模拟线上，主要是由于-v挂载进去的目录是root权限。在线上，模型文件从OBS下载到/home/mind/model目录之后，文件owner将统一修改为ma-user。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
Standard资源池节点故障定位 - AI开发平台ModelArts

“/mnt/paas/kubernetes/kubelet”目录为只读状态。 A050801 节点管理节点运维资源预留。节点被标记为备机，并具有备机污点。 A050802 节点管理节点运维未知错误。节点被标记为具有未知故障污点。 A200001 节点管理驱动升级 GPU升级。节点正在执行GPU驱动升级。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
数据管理权限 - AI开发平台ModelArts

{dataset_id}/data-annotations/stats modelarts:dataset:get - √ √ 查询数据集监控数据 GET /v2/{project_id}/datasets/{dataset_id}/metrics modelarts:dataset:get

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项

总条数： 493

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

预训练任务 - AI开发平台ModelArts

简介 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Standard资源池功能介绍 - AI开发平台ModelArts

快速配置ModelArts委托授权 - AI开发平台ModelArts

部署在线服务 - AI开发平台ModelArts

部署的在线服务状态为告警 - AI开发平台ModelArts

自定义镜像规范 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

AI Gallery简介 - AI开发平台ModelArts

VS Code一键连接Notebook - AI开发平台ModelArts

Lite Server使用流程 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

工作空间 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

部署模型为在线服务 - AI开发平台ModelArts

infiniband驱动的安装 - AI开发平台ModelArts

使用自定义引擎在ModelArts Standard创建模型 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

数据管理权限 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线