搜索_华为云

使用基础镜像 - AI开发平台ModelArts

使用基础镜像通过ECS获取和上传基础镜像将镜像上传至SWR服务后，可创建训练作业，在“选择镜像”中选择SWR中基础镜像。由于基础镜像内需要安装固定版本依赖包，若直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图1中都需要执行 install.sh 文件，来安装依赖以及下载完整代码。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
使用基础镜像 - AI开发平台ModelArts

使用基础镜像通过ECS获取和上传基础镜像将镜像上传至SWR服务后，可创建训练作业，在“选择镜像”中选择SWR中基础镜像。由于基础镜像内需要安装固定版本依赖包，如果直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图1中都需要执行 install.sh文件，来安装依赖以及下载完整代码。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
使用预置镜像制作自定义镜像用于训练模型 - AI开发平台ModelArts

learning时，均需要替换为此处实际创建的组织名称。单击右上角“登录指令”，获取登录访问指令。以root用户登录ECS环境，输入登录指令。图1 在ECS中执行登录指令登录SWR后，使用docker tag命令给上传镜像打标签。下面命令中的组织名称deep-learning，请替换为a

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

cluster_name CCE集群名称。 node级别指标 cid 该node所属CCE集群的ID。 node_ip 节点的IP。 host_name 节点的主机名。 pool_id 物理专属池对应的资源池ID。 project_id 物理专属池的用户的project id。 npu_id 昇腾卡的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
DevServer权限 - AI开发平台ModelArts

/v1/{project_id}/dev-servers modelarts:devserver:create ecs:serverKeypairs:createecs:*:get iam:users:getUser iam:users:listUsers iam:projects:listProjects

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
如何登录并上传镜像到SWR？ - AI开发平台ModelArts

earning时，均需要替换为此处实际创建的组织名称。单击右上角“登录指令”，获取登录访问指令。以root用户登录ECS环境，输入登录指令。图1 在ECS中执行登录指令 Step2 上传镜像到SWR 此小节介绍如何上传镜像至容器镜像服务SWR的镜像仓库。登录SWR后，使用docker

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
训练启动脚本说明和参数配置 - AI开发平台ModelArts

数据集。 MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

数据集。 MBS 1 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 128 表示训练中所有机器一个step所

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明参考
训练启动脚本说明和参数配置 - AI开发平台ModelArts

数据集。 MBS 1 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 128 表示训练中所有机器一个step所

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
配置IAM权限 - AI开发平台ModelArts

"Action": [ "vpc:*:*", "ecs:*:get*", "ecs:*:list*" ], "Effect": "Allow"

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置 > 权限配置
管理员和开发者权限分离 - AI开发平台ModelArts

"ecs:serverKeypairs:list", "ecs:serverKeypairs:get", "ecs:serverKeypairs:delete", "ecs:serverKeypairs:create"

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
制作自定义镜像用于创建Notebook - AI开发平台ModelArts

制作自定义镜像用于创建Notebook Notebook的自定义镜像制作方法在ECS上构建自定义镜像并在Notebook中使用在Notebook中通过Dockerfile从0制作自定义镜像在Notebook中通过镜像保存功能制作自定义镜像父主题：制作自定义镜像用于ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
制作自定义镜像用于推理 - AI开发平台ModelArts

模型的自定义镜像制作流程在Notebook中通过镜像保存功能制作自定义镜像用于推理在Notebook中通过Dockerfile从0制作自定义镜像用于推理在ECS中通过Dockerfile从0制作自定义镜像用于推理父主题：制作自定义镜像用于ModelArts Standard

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
上传镜像 - AI开发平台ModelArts
上传镜像 - AI开发平台ModelArts

客户端上传镜像，是指在安装了容器引擎客户端的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。如果容器引擎客户端机器为云上的ECS或CCE节点，根据机器所在区域有两种网络链路可以选择：如果机器与容器镜像仓库在同一区域，则上传镜像走内网链路。如果机器与容器镜像仓库不

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

t数据集 MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

t数据集 MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

t数据集 MBS 1 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 128 表示训练中所有机器一个step所

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
Standard专属资源池 - AI开发平台ModelArts

Standard专属资源池 ModelArts支持使用ECS创建专属资源池吗？在ModelArts中1个节点的专属资源池，能否部署多个服务？在ModelArts中公共资源池和专属资源池的区别是什么？ ModelArts中的作业为什么一直处于等待中？ ModelArts控制台为什么能看到创建失败被删除的专属资源池？

帮助中心 > AI开发平台ModelArts > 常见问题
使用MaaS调优模型 - AI开发平台ModelArts

资源池分为公共资源池与专属资源池。公共资源池供所有租户共享使用。专属资源池需单独创建，不与其他租户共享。规格选择规格，规格中描述了服务器类型、型号等信息，仅显示模型支持的资源。计算节点个数当计算节点个数大于1，将启动多节点分布式训练。详细信息，请参见分布式训练功能介绍。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
训练启动脚本说明和参数配置 - AI开发平台ModelArts

t数据集 MBS 1 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 128 表示训练中所有机器一个step所

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考

总条数： 613

上一页
1
...
26
27
28
...
31
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用基础镜像 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用预置镜像制作自定义镜像用于训练模型 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

DevServer权限 - AI开发平台ModelArts

如何登录并上传镜像到SWR？ - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

配置IAM权限 - AI开发平台ModelArts

管理员和开发者权限分离 - AI开发平台ModelArts

制作自定义镜像用于创建Notebook - AI开发平台ModelArts

制作自定义镜像用于推理 - AI开发平台ModelArts

上传镜像 - AI开发平台ModelArts

训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

Standard专属资源池 - AI开发平台ModelArts

使用MaaS调优模型 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线