搜索_华为云

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练场景描述 ranktable路由规划是一种用于分布式并行训练中的通信优化能力，在使用NPU的场景下，支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划，进而提升节点之间的通信速度。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard。资源规格需要使用专属资源池中的昇腾Snt9B资源，请参考创建资源池购买资源。推荐使用“西南-贵阳一”Region上的昇腾资源。专属资源池驱动检查登录ModelArts控制台，单击“专属资源池

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard。资源规格需要使用专属资源池中的昇腾Snt9B资源，请参考创建资源池购买资源。推荐使用“西南-贵阳一”Region上的昇腾资源。专属资源池驱动检查登录ModelArts控制台，单击“专属资源池

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard。资源规格需要使用专属资源池中的昇腾Snt9B资源，请参考创建资源池购买资源。推荐使用“西南-贵阳一”Region上的昇腾资源。专属资源池驱动检查登录ModelArts控制台，单击“专属资源池

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 准备工作
标注文本分类数据 - AI开发平台ModelArts

标注文本分类数据项目创建完成后，将会自动跳转至新版自动学习页面，并开始运行，当数据标注节点的状态变为“等待操作”时，需要手动进行确认数据集中的数据标注情况，也可以对数据集中的数据进行标签的修改，数据的增加或删减。图1 数据标注节点状态双击“数据标注”节点，单击实例详情按钮，打开数据标注页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：用户可参考表2。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：用户可参考表2。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
Notebook无法执行代码，如何处理？ - AI开发平台ModelArts

Notebook无法执行代码，如何处理？当Notebook出现无法执行时，您可以根据如下几种情况判断并处理。如果只是Cell的执行过程卡死或执行时间过长，如图1中的第2个和第3个Cell，导致第4个Cell无法执行，但整个Notebook页面还有反应，其他Cell也还可以单击

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 代码运行常见错误
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906）
配置Standard专属资源池可访问公网 - AI开发平台ModelArts

配置Standard专属资源池可访问公网场景介绍当您使用专属资源池创建作业时（如训练作业），如果需要作业运行过程中需要专属资源池访问外网，可打通VPC的方式，使得专属资源池和已绑定EIP的弹性云服务器处于同一VPC内，实现专属资源池访问外网。前提条件已拥有需要部署SNAT的弹性云服务器。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备训练Llama2-13B模型适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。镜像地址本教程中用到的训练的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本训练基础镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
报名实践活动（实践） - AI开发平台ModelArts

报名实践活动（实践）在AI Gallery中，可以报名参加正在进行中的实践活动。查找实践活动进入AI Gallery首页，单击“实践”，在下拉框中单击“实践 >”，进入实践首页。在实践页面，有“进行中”、“即将开始”和“已结束”三种状态的实践活动筛选方式。图1 查找实践活动

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 参加活动
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard。资源规格需要使用专属资源池中的昇腾Snt9B资源，请参考创建资源池购买资源。推荐使用“西南-贵阳一”Region上的昇腾资源。专属资源池驱动检查登录ModelArts控制台，单击“专属资源池

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 准备工作
SDXL基于Standard适配PyTorch NPU的LoRA训练指导（6.3.908） - AI开发平台ModelArts

SDXL基于Standard适配PyTorch NPU的LoRA训练指导（6.3.908） Stable Diffusion（简称SD）是一种基于扩散过程的图像生成模型，应用于文生图场景，能够帮助用户生成图像。SDXL LoRA是指在已经训练好的SDXL模型基础上，使用新的数据集进行LoRA微调。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
训练文本分类模型 - AI开发平台ModelArts

训练文本分类模型完成数据标注后，可进行模型的训练。模型训练的目的是得到满足需求的文本分类模型。由于用于训练的文本，至少有2种以上的分类（即2种以上的标签），每种分类的文本数不少于20个。因此在单击“继续运行”按钮之前，请确保已标注的文本符合要求。操作步骤在新版自动学习页面，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
重建、停止或删除训练作业 - AI开发平台ModelArts

重建、停止或删除训练作业另存为算法当您需要修改训练作业的算法时，可以在训练作业详情页面右上角，单击“另存为算法”。在“创建算法”页面中，会自动填充上一次训练作业的算法参数配置，您可以根据业务需求在原来算法配置基础上进行修改。订阅算法不支持另存为算法。重建训练作业当对创

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志若查看启动作业日志信息，可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME，例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中，训练日志会在最后的Rank节点打印。图1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志若查看启动作业日志信息，可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME，例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中，训练日志会在最后的Rank节点打印。图1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备训练Llama2-13B模型适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。镜像地址本教程中用到的训练的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本训练基础镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作

总条数： 1251

上一页
1
...
51
52
53
...
63
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

标注文本分类数据 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

Notebook无法执行代码，如何处理？ - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

配置Standard专属资源池可访问公网 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

报名实践活动（实践） - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

SDXL基于Standard适配PyTorch NPU的LoRA训练指导（6.3.908） - AI开发平台ModelArts

训练文本分类模型 - AI开发平台ModelArts

重建、停止或删除训练作业 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线