搜索_华为云

准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

存储卷使用对象存储。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。首先进入已创建的 CCE 集群控制版面中。根据图1的步骤进行操作，单击kubectl配置时，会弹出图2步骤页面。图1 配置中心根据图2，按步骤进行：判断是否安装 kub

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
手动部署推理服务 - AI开发平台ModelArts

已经完成资源购买。约束限制脚本中的镜像是在西南-贵阳一区域，请在西南-贵阳一区域上部署推理服务。步骤一：检查环境 SSH登录机器后，检查NPU设备检查。如果驱动版本不是24.1.0，请先升级驱动和对应固件。 npu-smi info -t board -i 1 | egrep -i "software|firmware"

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 部署推理服务
在开发环境中部署本地服务进行调试 - AI开发平台ModelArts

是否必选参数类型描述 model_id 是 String 模型ID。“model_id”可以通过查询模型列表或者ModelArts管理控制台获取。 weight 是 Integer 权重百分比，分配到此模型的流量权重，部署本地服务Predictor时，取值100。 specification

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

Successfully tagged tensorflow:2.10.0-ofed-cuda11.2 Step6 上传镜像至SWR服务登录容器镜像服务控制台，选择区域，要和ModelArts区域保持一致，否则无法选择到镜像。单击右上角“创建组织”，输入组织名称完成组织创建。请自定义组织名称

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

构建过程结束时出现如下构建日志说明镜像构建成功。 Successfully tagged pytorch:2.1.0-cann7.0.0 上传镜像至SWR服务登录容器镜像服务控制台，选择区域，要和ModelArts区域保持一致，否则无法选择到镜像。单击右上角“创建组织”，输入组织名称完成组织创建。请自定义组织名称

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

使用客户端上传镜像，镜像的每个layer大小不能大于10G。上传镜像的容器引擎客户端版本必须为1.11.2及以上。连接容器镜像服务。登录容器镜像服务控制台。单击右上角“创建组织”，输入组织名称完成组织创建。请自定义组织名称，本示例使用“deep-learning”，下面的命令中涉及到组织

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
创建ModelArts数据集 - AI开发平台ModelArts

ModelArts不支持加密的OBS桶，创建OBS桶时，请勿开启桶加密。创建数据集（图片、音频、文本、视频、自由格式）登录ModelArts管理控制台，在左侧菜单栏中选择“资产管理> 数据集”，进入数据集管理页面。单击“创建数据集”，进入“创建数据集”页面，根据数据类型以及数据标注要

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

idia-fabricmanager.service不工作：可能系统资源不足、如内存不足、内存泄露。硬件故障、如IB网络或者GPU互联设备故障等。没安装nvidia-fabricmanager组件或被误卸载。处理方法如果未安装fabricmanager，则需安装改组件。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
Standard模型部署 - AI开发平台ModelArts

同厂商的摄像机上，这是一项非常耗时、费力的巨大工程，ModelArts支持将训练好的模型一键部署到端、边、云的各种设备上和各种场景上，并且还为个人开发者、企业和设备生产厂商提供了一整套安全可靠的一站式部署方式。图1 部署模型的流程在线推理服务，可以实现高并发，低延时，弹性伸缩，并且支持多模型灰度发布、A/B测试。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
执行训练任务（推荐） - AI开发平台ModelArts

存一次模型版本。模型版本保存次数=TRAIN_ITERS//SAVE_INTERVAL+1 save-total-limit -1 用于控制权重版本保存次数。当参数不设置或<=0时，不会触发效果。参数值需<=TRAIN_ITERS//SAVE_INTERVAL+1 当参数值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
已有镜像迁移至ModelArts用于训练模型 - AI开发平台ModelArts

Dockerfile . -t {新镜像} 构建成功后将新镜像上传至SWR（参考6）。在ModelArts上创建训练作业。登录ModelArts管理控制台。在左侧导航栏中，选择“模型训练 > 训练作业”进入训练作业列表。单击“创建训练作业”，进入创建训练作业页面，填写作业信息，创建方式

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

启动文件所在的目录 project_root = os.path.dirname(current_path) # 工程的根目录，对应ModelArts训练控制台上设置的代码目录 otherfile_path = os.path.join(project_root, "otherfileDirectory"

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
创建Workflow数据集标注节点 - AI开发平台ModelArts

用户只创建了一个未标注完成的数据集，需要在工作流运行时对数据进行人工标注。可以放在数据集导入节点之后，对导入的新数据进行人工标注。数据准备：提前在ModelArts管理控制台创建一个数据集。 from modelarts import workflow as wf # 通过LabelingStep给输入的数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
在Notebook中通过镜像保存功能制作自定义镜像用于推理 - AI开发平台ModelArts

Notebook中保存镜像 Step4 使用保存成功的镜像用于推理部署 Step1 在Notebook中复制模型包登录ModelArts控制台，在左侧导航栏中选择“开发空间 > Notebook”，进入“Notebook”管理页面。单击右上角“创建”，进入“创建Notebook”页面，请参见如下说明填写参数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
使用MaaS调优模型 - AI开发平台ModelArts

如果数据集选择错误，您可以通过以下方式查看日志详情。登录ModelArts Studio控制台，在“模型调优”页面单击目标作业，在作业详情的日志页签查看详情。登录ModelArts控制台，在“模型训练 > 训练作业”页面单击目标作业，在日志页签查看详情。添加数据集选择存放

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
分离部署推理服务 - AI开发平台ModelArts

资源。安装过程需要连接互联网git clone，确保容器可以访问公网。步骤一检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
训练的数据集预处理说明 - AI开发平台ModelArts

启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma-user/ws/ll

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma-user/ws/ll

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907） > 训练脚本说明
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

场景描述本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。前提条件 GPU A系列裸金属服务器已经安装了IB驱动。（网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20.04操作系统默认已经安装IB驱动。）操作步骤

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
训练迁移快速入门案例 - AI开发平台ModelArts

eed已原生支持NPU，可以直接在昇腾设备上运行。代码迁移基础知识 PyTorch 2.1以下版本时，PyTorch官方并不直接支持昇腾的后端，仅直接支持CUDA和AMD ROCm，因此PyTorch在GPU上的训练代码无法直接在昇腾设备运行。PyTorch 2.1版本提供了新

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导

总条数： 775

上一页
1
...
30
31
32
...
39
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备环境 - AI开发平台ModelArts

手动部署推理服务 - AI开发平台ModelArts

在开发环境中部署本地服务进行调试 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

创建ModelArts数据集 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

Standard模型部署 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

已有镜像迁移至ModelArts用于训练模型 - AI开发平台ModelArts

训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

创建Workflow数据集标注节点 - AI开发平台ModelArts

在Notebook中通过镜像保存功能制作自定义镜像用于推理 - AI开发平台ModelArts

使用MaaS调优模型 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

训练迁移快速入门案例 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线