搜索_华为云

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

出现该问题的可能原因如下：如果在此之前是有进行数据复制的，每个节点复制的速度不是同一个时间完成的，然后有的节点没有复制完，其他节点进行torch.distributed.init_process_group()导致超时。处理方法如果是多个节点复制不同步，并且没有barrier的话导致的超时，可以在复制数据之前，先进行torch

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
升级Standard专属资源池驱动 - AI开发平台ModelArts

如果升级方式为安全升级，则根据滚动实例数量选择无业务的节点，隔离节点并滚动升级。如果升级方式为强制升级，则根据滚动实例数量随机选择节点，隔离节点并滚动升级。无业务节点定义：在资源池详情“节点”页签下，如果GPU/Ascend的可用数等于总数，则为无业务节点。滚动驱动升级时，驱动异常的节点对升级无影响，会和驱动正常的节点一起升级。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
精度校验 - AI开发平台ModelArts
精度校验 - AI开发平台ModelArts

保存网络输入为二进制文件 image.tofile("input_data.bin") 将基准模型的输出保存到文本文件。本例中输出节点名称为output_node_name，输出节点的shape为“(1, 1000)”，因此一共有两维，对应的输出文件为“output_node_name 2 1 1000”，再加上输出的值即可。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
ModelArts中常用概念 - AI开发平台ModelArts

ModelArts中常用概念自动学习自动学习功能可以根据标注数据自动设计模型、自动调参、自动训练、自动压缩和部署模型，不需要代码编写和模型开发经验。只需三步，标注数据、自动训练、部署模型，即可完成模型构建。端-边-云端-边-云分别指端侧设备、智能边缘设备、公有云。推理

 帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
使用前必读 - AI开发平台ModelArts

供您使用，SDK的使用方法请参见ModelArts SDK参考。终端节点终端节点（Endpoint）即调用API的请求地址，不同服务不同区域的终端节点不同，您可以从地区和终端节点中查询所有服务的终端节点。约束与限制您能创建的ModelArts资源的数量与配额有关系，具体请参见服务配额。

帮助中心 > AI开发平台ModelArts > API参考
OOM导致训练作业失败 - AI开发平台ModelArts

initialized”。原因分析按照之前支撑的经验，出现该问题的可能原因如下：绝大部分都是确实是显存不够用。还有较少数原因是节点故障，跑到特定节点必现OOM，其他节点正常。处理方法如果是正常的OOM，就需要修改一些超参，释放一些不需要的tensor。修改网络参数，比如batch_

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
产品优势 - AI开发平台ModelArts
产品优势 - AI开发平台ModelArts

析与诊断容错能力强，故障恢复快提供机柜、节点、加速卡、任务多场景故障感知和检测提供节点级、作业级、容器级，多级故障恢复，保障千卡作业稳定训练多种资源形态集群模式，开箱即提供好Kubernetes集群，直接使用，方便高效节点模式，客户可采用开源或自研框架，自行构建集群，更强的掌控力和灵活性

 帮助中心 > AI开发平台ModelArts > 产品介绍
Standard模型部署 - AI开发平台ModelArts

支持各种部署场景，既能部署为云端的在线推理服务和批量推理任务，也能部署到端，边等各种设备。一键部署，可以直接推送部署到边缘设备中，选择智能边缘节点，推送模型。 ModelArts基于Snt3高性能AI推理芯片的深度优化，具有PB级别的单日推理数据处理能力，支持发布云上推理的API百万个以上，推理网络时延毫秒。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
创建训练任务 - AI开发平台ModelArts

&& /bin/sh run.sh 资源池：在“专属资源池”页签选择GPU规格的专属资源池。规格：选择所需GPU规格。计算节点个数：选择需要的节点个数。 SFS Turbo：增加挂载配置，选择SFS名称，云上挂载路径为“/home/ma-user/work”。为了和Note

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
日志提示“No space left on device” - AI开发平台ModelArts

创建文件越快，越容易触发。处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。如果是触发了欧拉操作系统的限制，有如下建议措施。分目录处理，减少单个目录文件量。减慢创建文件的速度。关闭

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
Lite Cluster使用流程 - AI开发平台ModelArts

k8s Cluster节点默认会安装os-node-agent插件，用于对节点进行管理，例如：驱动升级：通过os-node-agent插件下载驱动文件并进行驱动版本升级、回退。故障检测：通过os-node-agent插件在系统内周期性巡检故障特征，及时发现节点故障。指标采集：通

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

内，但是依旧出现了上述报错。可能是该资源节点中存在GPU卡损坏的情况，导致实际能检测到的卡少于所选规格。处理方法建议直接根据系统分卡情况下传进去的CUDA_VISIBLE_DEVICES去设置，不用手动指定默认的。如果发现资源节点中存在GPU卡损坏，请联系技术支持处理。建议与总结

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

用边释放）处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。如果是触发了欧拉操作系统的限制，有如下建议措施。分目录处理，减少单个目录文件量。减慢创建文件的速度。关闭

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

Cluster适配NPU推理指导（6.3.906） ComfyUI是一款基于节点工作流的Stable Diffusion操作界面。通过将Stable Diffusion的流程巧妙分解成各个节点，成功实现了工作流的精确定制和可靠复现。每一个节点都有特定的功能，可以通过调整节点连接达到不同的出图效果。在图像生成方面，它

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
创建Notebook实例 - AI开发平台ModelArts

Gallery镜像页面后，单击镜像名称，可查看镜像详情，复制对应局点的镜像URL，即可在ModelArts控制台“镜像管理”注册并在Notebook中使用。如果需要使用更高版本的MindSpore类型的Ascend架构镜像，可选择西南-贵阳一局点。自定义镜像：可以将基于公共镜像创建的实例保存下

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
创建训练任务 - AI开发平台ModelArts

&& /bin/sh tools/run.sh 资源池：在“专属资源池”页签选择GPU规格的专属资源池。规格：选择8卡GPU规格。计算节点：1。 SFS Turbo：增加挂载配置，选择SFS名称，云上挂载路径为“/home/ma-user/work”。为了和Notebook调

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

用自己准备的数据集。准备镜像准备训练模型适用的容器镜像。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、训练任务、断点续训及性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调。 LoRA微调训练介绍如何进行LoRA微调训练。父主题：主流开

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905）
解析Pascal VOC文件 - AI开发平台ModelArts

type 形状标注信息 point 点点的坐标 <x>100<x> <y>100<y> line 线各点坐标 <x1>100<x1> <y1>100<y1> <x2>200<x2> <y2>200<y2> bndbox 矩形框左下和右上两个点坐标 <x_min>100<x_min>

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > Manifest管理
SDXL&SD1.5 ComfyUI插件基于DevServer适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

NPU推理指导（6.3.906） ComfyUI是一款基于节点工作流的Stable Diffusion操作界面。通过将Stable Diffusion的流程巧妙分解成各个节点，成功实现了工作流的精确定制和可靠复现。每一个节点都有特定的功能，可以通过调整节点连接达到不同的出图效果。在图像生成方面，它

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
管理Lite Cluster资源池 - AI开发平台ModelArts

lockup机制导致节点重启。关闭表示不使用大页内存功能。单击镜像预热的图标，可以设置镜像来源、添加镜像密钥、添加镜像预热配置，具体操作请参见（可选）配置镜像预热。更多相关操作其它更多操作如下：节点池管理操作请参见管理Lite Cluster节点池节点管理操作请参见管理Lite

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理

总条数： 728

上一页
1
...
32
33
34
...
37
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

升级Standard专属资源池驱动 - AI开发平台ModelArts

精度校验 - AI开发平台ModelArts

ModelArts中常用概念 - AI开发平台ModelArts

使用前必读 - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

产品优势 - AI开发平台ModelArts

Standard模型部署 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

Lite Cluster使用流程 - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

SDXL&SD1.5 ComfyUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

创建Notebook实例 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

解析Pascal VOC文件 - AI开发平台ModelArts

SDXL&SD1.5 ComfyUI插件基于DevServer适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

管理Lite Cluster资源池 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线