搜索_华为云

剪枝 - AI开发平台ModelArts
剪枝 - AI开发平台ModelArts

进行剪枝，并保存剪枝后的模型；2、使用剪枝后的模型进行推理部署。常用的剪枝技术包括：结构化稀疏剪枝、半结构化稀疏剪枝、非结构化稀疏剪枝。 FASP剪枝 FASP剪枝是一种结构化稀疏剪枝方法，能有效降低模型显存以及需要部署的资源依赖，减小推理过程中的计算量，降低增量推理时延，提升吞吐。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
开发用于自定义镜像训练的代码 - AI开发平台ModelArts

DEFAULT_CONDA_ENV_NAME=python-3.7.10 您可以使用Python命令启动训练脚本。启动命令示例如下： python /home/ma-user/modelarts/user-job-dir/code/train.py 方式二：使用“conda env python”的绝对路径。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
eagle投机小模型训练 - AI开发平台ModelArts

训练的小模型进行eagle推理。步骤一：安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。在目录下执行如下命令，即可安装 EAGLE。 bash build.sh

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
eagle 投机小模型训练 - AI开发平台ModelArts

训练的小模型进行eagle推理。步骤一：安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。在目录下执行如下命令，即可安装 EAGLE。 bash build.sh

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本文档中的模型运行环境是ModelArts Lite Server。镜像适配的Cann版本是cann_8.0.RC3。 Server驱动版本要求23.0.6 PyTorch版本：2.2.0 Python版本：3.10 确保容器可以访问公网。训练支持的模型列表本方案支持以下模型的训练，如表1所示。表1 支持的模型列表及权重文件地址

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
Open-Sora 1.0基于Lite Server适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
重置节点后无法正常使用？ - AI开发平台ModelArts

解决方案二（默认全部使用volcano调度器）： CCE页面上配置中心修改默认调度器为kube-scheduler。删除maos-node-agent的pod（重启pod）。 CCE页面上删除节点上的污点A200008。 ModelArts上重置节点。 CCE页面上配置中心修改默认调度器为volcano。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
准备W8A8权重 - AI开发平台ModelArts

https://gitee.com/ascend/msit.git 进入到msit/msmodelslim的目录；并在进入的msmodelslim目录下，运行安装脚本install.sh。 cd msit/msmodelslim bash install.sh 执行install过程会下载依赖包，因此需要确保能够访问到pip源。

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 准备权重
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

A系列裸金属服务器无法获取显卡如何解决 GPU裸金属服务器无法Ping通如何解决 GPU A系列裸金属服务器RoCE带宽不足如何解决？ GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 训练速度突然下降以及执行nvidia-smi卡顿如何解决？

帮助中心 > AI开发平台ModelArts > 故障排除
查看训练作业事件 - AI开发平台ModelArts

[worker-0] [耗时：秒] 训练输入（参数名称：）下载失败，失败原因： [worker-0] 正在安装Python依赖包，导入文件： [worker-0] [耗时：秒] Python依赖包安装完成，导入文件： [worker-0] 训练作业开始运行 [worker-0] 训练作业运行结束，退出码

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
步骤总览 - AI开发平台ModelArts
步骤总览 - AI开发平台ModelArts

资源购买：购买对象存储服务OBS 购买容器镜像服务SWR 创建网络购买ModelArts专属资源池基本配置：权限配置 obsutils安装和配置（可选）工作空间配置训练：线下容器镜像构建及调试上传镜像上传数据和算法至OBS（首次使用时需要）使用Notebook进行代码调试

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

Step6 推理服务的高阶配置（可选）如需开启以下高阶配置，请在Step3 配置NPU环境时增加需要开启的高阶配置参数。词表切分在分布式场景下，默认不使用词表切分能提升推理性能，同时也会增加单卡的显存占用。不建议开启词表并行，如确需使用词表切分，配置以下环境变量。 export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

面，完成基本配置后单击“下一步：网络配置”，进入网络配置页面，选择1中打通的VPC，完成其他参数配置，完成高级配置并确认配置，下发购买弹性云服务器的任务。等待服务器的状态变为“运行中”时，弹性云服务器创建成功。单击“名称/ID”，进入服务器详情页面，查看虚拟私有云配置信息。图4

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

此处介绍如何通过编写Dockerfile文件制作自定义镜像的操作步骤。安装Docker。以Linux x86_64架构的操作系统为例，获取Docker安装包。您可以使用以下指令安装Docker。关于安装Docker的更多指导内容参见Docker官方文档。 curl -fsSL

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
Notebook专属预置镜像列表 - AI开发平台ModelArts

使用此类镜像做基础镜像，安装自己需要的引擎版本和依赖包，可扩展性更高。并且这些镜像预置了一些开发环境启动所必要的配置，用户无需对此做任何适配，安装所需的软件包即可使用。此类镜像为最基础的镜像，主要应对用户做自定义镜像时基础镜像太大的问题，所以镜像中未安装任何组件；如果需使用OBS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
SD3基于Lite Server适配PyTorch NPU的训练指导（6.3.912） - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

制作自定义镜像目标：构建安装好如下软件的容器镜像，并使用ModelArts训练服务运行。 ubuntu-18.04 cuda-11.1 python-3.7.13 pytorch-1.8.1 此处介绍如何通过编写Dockerfile文件制作自定义镜像的操作步骤。安装Docker。以Linux

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
训练作业日志中提示“No module named .*” - AI开发平台ModelArts

检查依赖包是否存在如果依赖包不存在，您可以使用以下两种方式完成依赖包的安装。方式一（推荐使用）：在创建我的算法时，需要在“代码目录”下放置相应的文件或安装包。请根据依赖包的类型，在代码目录下放置对应文件：依赖包为开源安装包时在“代码目录”中创建一个命名为“pip-requirements

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
训练作业失败，返回错误码139 - AI开发平台ModelArts

如果存在之前能跑通，什么都没修改，过了一阵跑不通的情况，先去排查跑通和跑不通的日志是否存在pip源更新了依赖包，如下图，安装之前跑通的老版本即可。图1 PIP安装对比图推荐您使用本地Pycharm远程连接Notebook调试。如果上述情况都解决不了，请联系技术支持工程师。建议与总结

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
Llama 3.2-Vision基于Lite Server适配Pytorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理

总条数： 1617

上一页
1
...
12
13
14
...
81
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

剪枝 - AI开发平台ModelArts

开发用于自定义镜像训练的代码 - AI开发平台ModelArts

eagle投机小模型训练 - AI开发平台ModelArts

eagle 投机小模型训练 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

Open-Sora 1.0基于Lite Server适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

准备W8A8权重 - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

查看训练作业事件 - AI开发平台ModelArts

步骤总览 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

Notebook专属预置镜像列表 - AI开发平台ModelArts

SD3基于Lite Server适配PyTorch NPU的训练指导（6.3.912） - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

训练作业日志中提示“No module named .*” - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

Llama 3.2-Vision基于Lite Server适配Pytorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线