搜索_华为云

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

/bin/bash # MA preset envs MASTER_HOST="$VC_WORKER_HOSTS" MASTER_ADDR="${VC_WORKER_HOSTS%%,*}" NNODES="$MA_NUM_HOSTS" NODE_RANK="$VC_TASK_INDEX" #

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

查看卡信息，执行以下命令。 npu-smi info kubernetes会根据config.yaml文件中配置的卡数分配资源给pod，如下图所示由于配置了1卡因此在容器中只会显示1卡，说明配置生效。图2 查看卡信息修改pod的卡数。由于本案例中为分布式训练，因此所需卡数修改为8卡。删除已创建的pod。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
ECS中构建新镜像 - AI开发平台ModelArts

编辑llm_train/AscendSpeed中的Dockerfile文件，修改安装transformers库代码的位置，放置在 chown -R ma-user:ma-group 代码的上面。避免transformers安装后由于权限问题无法访问。若要对ChatCLMv3、GLMv4系列模型进行训练时，需要修改

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

--ps_hosts <TF_PS_HOSTS> --worker_hosts <TF_WORKER_HOSTS> --job_name <MA_TASK_NAME> 启动文件需要解析如下参数。 VC_TASK_INDEX：task序号，如0、1、2。 TF_PS_HOSTS ：ps节点地址数组，如“[xx-ps-0

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
部署推理服务 - AI开发平台ModelArts

--tensor-parallel-size：并行卡数。 --host：服务部署的IP，使用本机IP 0.0.0.0。 --port：服务部署的端口8080。 --max-model-len：最大数据输入+输出长度，不能超过模型配置文件config.json里面定义的“max_posit

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
管理ModelArts模型版本 - AI开发平台ModelArts

已在ModelArts中创建模型。创建新版本在“模型”页面，单击操作列的“创建新版本”进入“创建新版本”页面，参数配置除版本外，将默认选择上一个版本的配置信息，您可以对参数配置进行修改，参数说明请参见创建模型。单击“立即创建”，完成新版本的创建操作。删除版本在“模型管理”页面，单击

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
部署推理服务 - AI开发平台ModelArts

--tensor-parallel-size：并行卡数。 --host：服务部署的IP，使用本机IP 0.0.0.0。 --port：服务部署的端口8080。 --max-model-len：最大数据输入+输出长度，不能超过模型配置文件config.json里面定义的“max_posit

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
使用预置镜像制作自定义镜像用于训练模型 - AI开发平台ModelArts

镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时，您可以基于这些基础镜像制作一个新的镜像并进行训练。您可以参考如下步骤基于训练基础镜像来构建新镜像。安装Docker。如果docker images命令可以执行成功，表示Docker已安装，此步骤可跳过。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
训练作业容错检查 - AI开发平台ModelArts

设置API 检测项目与执行条件检测项目 item（日志关键字）执行条件检测成功要求域名检测 dns 无 volcano容器的域名都解析成功（/etc/volcano下的“.host”文件中的域名解析成功）磁盘空间-容器根目录 disk-size root 无大于32GB 磁盘空间-/dev/shm目录

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
DockerFile构建镜像（可选） - AI开发平台ModelArts

_train/LLaMAFactory 构建新镜像： docker build -t <镜像名称>:<版本名称> . 如无法访问公网则需配置代理，增加`--build-arg`参数指定代理地址确保访问公网。 docker build --build-arg "https_proxy=http://xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 准备工作
DockerFile构建镜像（可选） - AI开发平台ModelArts

_train/LLaMAFactory 构建新镜像： docker build -t <镜像名称>:<版本名称> . 如无法访问公网则需配置代理，增加`--build-arg`参数指定代理地址确保访问公网。 docker build --build-arg "https_proxy=http://xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 准备工作
DockerFile构建镜像（可选） - AI开发平台ModelArts

--network=host --build-arg install_type=llamafactory -t <镜像名称>:<版本名称> . <镜像名称>:<版本名称>：定义镜像名称。示例：pytorch_2_2_ascend:20241106 install_type:安装类型，默认

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注意：CPU架构必须选择鲲鹏计算，镜像推荐选择EulerOS。图1 购买ECS Step2 安装Docker 检查docker是否安装。 docker

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 准备工作
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

Step6 推理服务的高阶配置（可选）如需开启以下高阶配置，请在Step3 配置NPU环境时增加需要开启的高阶配置参数。词表切分在分布式场景下，默认不使用词表切分能提升推理性能，同时也会增加单卡的显存占用。不建议开启词表并行，如确需使用词表切分，配置以下环境变量。 export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
构造请求 - AI开发平台ModelArts
构造请求 - AI开发平台ModelArts

-type;host;x-sdk-date, Signature=55741b610f3c9fa3ae40b5a8021ebf7ebc2a28a603fc62d25cb3bfe6608e1994 Host 请求的服务器信息，从服务API的URL中获取。值为hostname[:port]。

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API

总条数： 1566

上一页
1
...
10
11
12
...
79
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

管理ModelArts模型版本 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

使用预置镜像制作自定义镜像用于训练模型 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

DockerFile构建镜像（可选） - AI开发平台ModelArts

DockerFile构建镜像（可选） - AI开发平台ModelArts

DockerFile构建镜像（可选） - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

构造请求 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线