搜索_华为云

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？场景描述本文指导如何进行节点内NVLINK带宽性能测试，适用的环境为：Ant8或者Ant1 GPU裸金属服务器，且服务器中已经安装相关GPU驱动软件，以及Pytorch2.0。 GPU A系列裸金属服务器

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
在Workflow中指定仅运行部分节点 - AI开发平台ModelArts

该示例中Workflow包含了五个节点（节点相关定义已省略），在policy中定义了两个预置场景：模型训练和服务部署，工作流发布至运行态后，部分运行的开关默认关闭，节点全部运行。用户可在权限管理页面打开开关，选择指定的场景进行运行。部分运行能力支持同一个节点被定义在不同的运行场景中，但

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > Workflow高阶能力
在Lite Cluster资源池上使用Ascend FaultDiag工具完成日志诊断 - AI开发平台ModelArts

括日志采集、日志清洗、故障诊断三个步骤。日志数据以节点为单位进行采集，在单节点日志目录下分别清洗，将清洗结果汇总后，进行故障诊断。例如，对于运行在8个节点共64卡集群上的任务，需要在8个节点上分别进行日志采集，收集的日志存储在worker-0 ~ worker-7这8个目录下。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
开发Workflow的核心概念介绍 - AI开发平台ModelArts

properties 节点的属性信息否 dict policy 节点的执行策略，主要包含节点调度运行的时间间隔、节点执行的超时时间、以及节点执行是否跳过的相关配置否 StepPolicy depend_steps 依赖节点的列表，该字段决定了DAG的结构，也决定了节点执行的顺序否 Step或者list[Step]

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
启动或停止Lite Server服务器 - AI开发平台ModelArts

在左侧菜单栏中选择“AI专属资源池 > 弹性节点 Server”，进入“节点”列表页面。在Server列表中执行如下操作，启动或停止弹性节点Server。启动弹性节点Server：单击“启动”。只有处于“已停止/停止失败/启动失败”状态的弹性节点Server可以执行启动操作。停止弹性节点Server：单

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
释放Lite Cluster资源 - AI开发平台ModelArts

再次单击“退订”，完成包年/包月资源的退订操作。释放游离节点如果您的资源中存在游离节点（即没有被纳管到资源池中的节点），您可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。针对游离节点，可以通过以下方式释放节点资源：如果是“包年/包月”且资源未到期的节点，您可单击操作列的“退

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
编排Workflow - AI开发平台ModelArts

Workflow的编排主要在于每个节点的定义，您可以参考创建Workflow节点章节，按照自己的场景需求选择相应的代码示例模板进行修改。编排过程主要分为以下几个步骤。梳理场景，了解预置Step的功能，确定最终的DAG结构。单节点功能，如训练、推理等在ModelArts相应服务中调试通过。根据节点功能选择相应的代码模板，进行内容的补充。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
Workflow多分支运行介绍 - AI开发平台ModelArts

Workflow多分支运行介绍当前支持两种方式实现多分支的能力，条件节点只支持双分支的选择执行，局限性较大，推荐使用配置节点参数控制分支执行的方式，可以在不添加新节点的情况下完全覆盖ConditionStep的能力，使用上更灵活。构建条件节点控制分支执行主要用于执行流程的条件分支选择，可以简单

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
配置Lite Cluster存储 - AI开发平台ModelArts

Cluster存储如果没有挂载任何外部存储，此时可用存储空间根据dockerBaseSize的配置来决定，可访问的存储空间比较小，因此建议通过挂载外部存储空间解决存储空间受限问题。容器中挂载存储有多种方式，不同的场景下推荐的存储方式不一样，详情如表1所示。容器存储的基础知识了解

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
开发第一条Workflow - AI开发平台ModelArts

开发第一条Workflow 本章节提供了一个基于图像分类算法，构建包含训练单节点的Workflow的样例。更多节点的构建参数请参考创建Workflow节点。步骤一：安装开发环境本案例提供了两种安装开发环境的方法，您可根据使用习惯选择。方法一：使用JupyterLab打开Notebook实例准备环境

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

Cluster适配NPU推理指导（6.3.906） ComfyUI是一款基于节点工作流的Stable Diffusion操作界面。通过将Stable Diffusion的流程巧妙分解成各个节点，成功实现了工作流的精确定制和可靠复现。每一个节点都有特定的功能，可以通过调整节点连接达到不同的出图效果。在图像生成方面，它

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
通过VPC访问通道的方式访问在线服务 - AI开发平台ModelArts

终端节点>终端节点”，进入“终端节点”页面。单击右上角的“购买终端节点”，进入购买页面。区域：终端节点所在区域。不同区域的资源之间内网不互通，请确保与ModelArts所在区域保持一致。服务类别：请选择“按名称查找服务”。服务名称：填入步骤1中获取的“终端节点服务地址

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
训练作业进程被kill - AI开发平台ModelArts

Kill或者中断，表现为日志中断。原因分析 CPU软锁在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时，加入sleep。比如每解压1w个文件，就停止1s。存储限制根据规格情况合理使用数据盘，数据盘大小请参考训练环境中不同规格资源大小。 CPU过载减少线程数。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
模型NPU卡数取值表 - AI开发平台ModelArts

per_device_train_batch_size=1 2*节点 & 8*Ascend 4*节点 & 8*Ascend cutoff_len=8192 lora sft per_device_train_batch_size=1 2*节点 & 8*Ascend 8*节点 & 8*Ascend 7B cutoff_len=4096

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

出现该问题的可能原因如下：如果在此之前是有进行数据复制的，每个节点复制的速度不是同一个时间完成的，然后有的节点没有复制完，其他节点进行torch.distributed.init_process_group()导致超时。处理方法如果是多个节点复制不同步，并且没有barrier的话导致的超时，可以在复制数据之前，先进行torch

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40G以下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.5.901） > 常见错误原因和解决方法

总条数： 1156

上一页
1
2
3
4
5
...
58
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

在Workflow中指定仅运行部分节点 - AI开发平台ModelArts

在Lite Cluster资源池上使用Ascend FaultDiag工具完成日志诊断 - AI开发平台ModelArts

开发Workflow的核心概念介绍 - AI开发平台ModelArts

启动或停止Lite Server服务器 - AI开发平台ModelArts

释放Lite Cluster资源 - AI开发平台ModelArts

编排Workflow - AI开发平台ModelArts

Workflow多分支运行介绍 - AI开发平台ModelArts

配置Lite Cluster存储 - AI开发平台ModelArts

开发第一条Workflow - AI开发平台ModelArts

SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

通过VPC访问通道的方式访问在线服务 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

模型NPU卡数取值表 - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线