搜索_华为云

终止训练作业 - AI开发平台ModelArts

TaskStatuses 参数参数类型描述 task String 训练作业子任务名称。 exit_code Integer 训练作业子任务退出码。 message String 训练作业子任务错误消息。表7 RunningRecord 参数参数类型描述 start_at

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查询服务详情 - AI开发平台ModelArts

mode String 节点亲和的方式，required表示强亲和，服务实例只能调度到指定节点，指定节点不存在则失败。preferred表示弱亲和，服务实例倾向于调度到指定节点，指定节点不满足调度条件，则会调度到其他节点。 pool_infos Array of AffinityPoolInfo

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

具体使用到该功能时，才会发生问题。例如，用户在创建训练任务时打开了“消息通知”，该功能依赖SMN委托授权，但只有训练任务运行过程中，真正需要发送消息时，系统才会“出错”，而有些错误系统会选择“忽略”，另一些错误则可能导致任务直接失败。当您做深入的“权限最小化”限制时，请确保您在M

帮助中心 > AI开发平台ModelArts > 产品介绍
功能咨询 - AI开发平台ModelArts
功能咨询 - AI开发平台ModelArts

E_FILE进行分布式训练？如何查询自定义镜像的cuda和cudnn版本？ Moxing安装文件如何获取？如何使用soft NMS方法降低目标框堆叠度多节点训练TensorFlow框架ps节点作为server会一直挂着，ModelArts是怎么判定训练任务结束？如何知道是哪个节点是worker呢？

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业
Lite Cluster资源开通 - AI开发平台ModelArts

Lite Cluster资源开通集群资源开通流程开通集群资源过程中用户侧需要完成的任务流程如下图所示。图1 用户侧任务流程表1 Cluster资源开通流程任务说明 Step1 申请开通资源规格当前部分规格为受限购买，需要提前联系客户经理申请开通资源规格，预计1~3个

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
训练专属预置镜像列表 - AI开发平台ModelArts

训练专属预置镜像列表 ModelArts平台提供了Tensorflow，PyTorch，MindSpore等常用深度学习任务的基础镜像，镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时，您可以基于这些基础镜像制作一个新的镜像并进行训练。训练基础镜像列表

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

在版本管理、生产部署上对平台系统产生了新的要求。例如：导入模型时，需要支持动态调整租户存储配额；模型加载、启动慢，部署时需要灵活的超时配置；当负载异常重启，模型需要重新加载，服务恢复时间长的问题亟待解决。为了应对如上诉求，ModelArts推理平台针对性给出解决方案，用于支持大模型场景下的模型管理和服务部署。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
ModelArts如何通过标签实现资源分组管理 - AI开发平台ModelArts

ModelArts支持对接标签管理服务TMS，在ModelArts中创建资源消耗性任务（例如：创建Notebook、训练作业、推理在线服务）时，可以为这些任务配置标签，通过标签实现资源的多维分组管理。 ModelArts支持配置标签的任务有：创建训练作业任务、创建Notebook、创建推理在线服务。使用流程

 帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
infiniband驱动的安装 - AI开发平台ModelArts

如果安装了libibverbs-dev库后仍然无法使能infiniband网卡，您可以直接安装infiniband官方驱动，以使用infiniband网卡进行分布式通信，提升训练性能。infiniband驱动需要在制作镜像时安装。操作步骤下载MLNX_OFED_LINUX-4.3-1.0.1.0-ubuntu16

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
ModelArts入门实践 - AI开发平台ModelArts

基于ModelArts Standard上运行GPU训练任务本案例介绍了如何使用ModelArts Standard专属资源池提供的计算资源，结合SFS和OBS存储，在ModelArts Standard的训练环境中开展单机单卡、单机多卡、多机多卡分布式训练。面向熟悉代码编写和调测的AI工程师，同时了解SFS和OBS云服务

 帮助中心 > AI开发平台ModelArts > 快速入门
功能介绍 - AI开发平台ModelArts
功能介绍 - AI开发平台ModelArts

功能介绍 Standard功能介绍 MaaS大模型即服务平台功能介绍 Lite功能介绍 AI Gallery功能介绍

 帮助中心 > AI开发平台ModelArts > 产品介绍
日志提示“no socket interface found” - AI开发平台ModelArts

日志提示“no socket interface found” 问题现象在pytorch镜像运行分布式作业时，设置NCCL日志级别，代码如下： import os os.environ["NCCL_DEBUG"] = "INFO" 会出现如下错误： job0879f61e-jo

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
查询训练作业详情 - AI开发平台ModelArts

TaskStatuses 参数参数类型描述 task String 训练作业子任务名称。 exit_code Integer 训练作业子任务退出码。 message String 训练作业子任务错误消息。表6 RunningRecord 参数参数类型描述 start_at

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
使用TMS标签实现资源分组管理 - AI开发平台ModelArts

ModelArts支持对接标签管理服务TMS，在ModelArts中创建资源消耗性任务时，可以为这些任务配置标签，通过标签实现资源的多维分组管理。 ModelArts支持配置标签的任务有：创建训练作业任务、创建Notebook、创建推理在线服务、创建ModelArts Standard专属资源池。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
更新服务配置 - AI开发平台ModelArts

是 String 节点亲和的方式，required表示强亲和，服务实例只能调度到指定节点，指定节点不存在则失败。preferred表示弱亲和，服务实例倾向于调度到指定节点，指定节点不满足调度条件，则会调度到其他节点。 pool_infos 否 Array of AffinityPoolInfo

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
Standard模型部署 - AI开发平台ModelArts

在线推理服务，可以实现高并发，低延时，弹性伸缩，并且支持多模型灰度发布、A/B测试。支持各种部署场景，既能部署为云端的在线推理服务和批量推理任务，也能部署到端，边等各种设备。一键部署，可以直接推送部署到边缘设备中，选择智能边缘节点，推送模型。 ModelArts基于Snt3高性能

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
最新动态 - AI开发平台ModelArts
最新动态 - AI开发平台ModelArts

相连接，让数据工程师能便捷地使用Notebook进行大数据开发，以及如何在DataArts Studio服务配置Notebook文件定时调度任务。白名单

 帮助中心 > AI开发平台ModelArts > 最新动态
日志提示“No space left on device” - AI开发平台ModelArts

device” 问题现象训练过程中复制数据/代码/模型时出现如下报错：图1 错误日志原因分析出现该问题的可能原因如下。磁盘空间不足。分布式作业时，有些节点的docker base size配置未生效，容器内“/”根目录空间未达到50G，只有默认的10GB，导致作业训练失败。实际存储空间足够，却依旧报错“No

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
管理训练容器环境变量 - AI开发平台ModelArts

管理训练容器环境变量什么是环境变量本章节展示了训练容器环境中预置的环境变量，方便用户查看，主要包括以下类型。路径相关环境变量分布式训练作业环境变量 NCCL（Nvidia Collective multi-GPU Communication Library）环境变量 OBS环境变量

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
重置节点后无法正常使用？ - AI开发平台ModelArts

（推荐）解决方案一（按需使用volcano调度器）： CCE页面上修改默认调度器为kube-scheduler。删除maos-node-agent的pod（重启pod）。 CCE页面上删除节点上的污点A200008。 ModelArts页面上重置节点。该方案的缺点：用户新建负载时需要手动指定调度器为volcano，参考指导。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster

总条数： 2647

上一页
1
...
7
8
9
...
133
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

终止训练作业 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

权限管理 - AI开发平台ModelArts

功能咨询 - AI开发平台ModelArts

Lite Cluster资源开通 - AI开发平台ModelArts

训练专属预置镜像列表 - AI开发平台ModelArts

使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

ModelArts如何通过标签实现资源分组管理 - AI开发平台ModelArts

infiniband驱动的安装 - AI开发平台ModelArts

ModelArts入门实践 - AI开发平台ModelArts

功能介绍 - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

使用TMS标签实现资源分组管理 - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

Standard模型部署 - AI开发平台ModelArts

最新动态 - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线