搜索_华为云

在ModelArts创建分布式训练时如何设置NCCL环境变量？ - AI开发平台ModelArts

在ModelArts创建分布式训练时如何设置NCCL环境变量？ ModelArts训练平台预置了部分NCCL环境变量，如表1所示。这些环境变量建议保持默认值。表1 预置的环境变量环境变量说明 NCCL_SOCKET_IFNAME 指定通信的网卡名称。 NCCL_IB_GID_INDEX

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
使用JupyterLab在线开发和调试代码 - AI开发平台ModelArts

py文件内容加载至.ipynb文件后进行编码、调试等。图5 打开代码文件在JupyterLab中直接调用ModelArts提供的SDK，创建训练作业，上云训练。调用SDK创建训练作业的操作请参见调用SDK创建训练作业。父主题：通过JupyterLab在线使用Notebook实例进行AI开发

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
在ModelArts Standard上运行GPU多机多卡训练任务 - AI开发平台ModelArts

计算节点个数：选择需要的节点个数。 SFS Turbo：增加挂载配置，选择SFS名称，云上挂载路径为“/home/ma-user/work”。为了和Notebook调试时代码路径一致，保持相同的启动命令，云上挂载路径需要填写为“/home/ma-user/work”。单击“提交”，在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练任务
训练专属预置镜像列表 - AI开发平台ModelArts

训练专属预置镜像列表 ModelArts平台提供了Tensorflow，PyTorch，MindSpore等常用深度学习任务的基础镜像，镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时，您可以基于这些基础镜像制作一个新的镜像并进行训练。训练基础镜像列表

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？问题现象启动服务失败，报错：资源不足，服务调度失败。（Schedule failed due to insufficient resources. Retry later.或ModelArts.3976：No resources

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
资源池监控 - AI开发平台ModelArts

资源池监控功能介绍获取资源池的监控信息。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/pools/{pool_name}/monitor

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
扩缩容Lite Cluster资源池 - AI开发平台ModelArts

扩缩容Lite Cluster资源池场景介绍当Lite Cluster资源池创建完成，使用一段时间后，由于用户业务的变化，对于资源池资源量的需求可能会产生变化，面对这种场景，ModelArts Lite Cluster资源池提供了扩缩容功能，用户可以根据需求动态调整资源。缩

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
产品优势 - AI开发平台ModelArts
产品优势 - AI开发平台ModelArts

用，方便高效节点模式，客户可采用开源或自研框架，自行构建集群，更强的掌控力和灵活性零改造迁移提供业界通用的k8s接口使用资源，业务跨云迁移无压力 SSH直达节点和容器，一致体验

 帮助中心 > AI开发平台ModelArts > 产品介绍
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错问题现象训练作业的状态“运行失败”，查看训练作业的“日志”，存在NCCL的报错，例如“NCCL timeout”、“RuntimeError: NCCL communicator was aborted on rank 7”、“NCCL WARN

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
SDXL WebUI基于DevServer适配PyTorch NPU推理指导（6.3.902） - AI开发平台ModelArts

r资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
Open-Sora-Plan1.0基于DevServer适配PyTorch NPU训练推理指导（6.3.907） - AI开发平台ModelArts

r资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？问题现象在高性能8卡GPU的裸金属上的训练任务突然变慢，以前1个epoch约2小时执行完成，最近1个epoch需要2天才能执行完成，并且执行“nvidia-smi”也明显变很卡顿。原因分析根据现象描述可能出现了nvidia-smi

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？场景描述本文指导如何进行节点内NVLINK带宽性能测试，适用的环境为：Ant8或者Ant1 GPU裸金属服务器，且服务器中已经安装相关GPU驱动软件，以及Pytorch2.0。 GPU A系列裸金属服务器

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
使用Notebook进行代码调试 - AI开发平台ModelArts

使用Notebook进行代码调试背景信息 Notebook使用涉及到计费，具体收费项如下：处于“运行中”状态的Notebook，会消耗资源，产生费用。根据您选择的资源不同，收费标准不同，价格详情请参见产品价格详情。当您不需要使用Notebook时，建议停止Notebook，避免产生不必要的费用。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
在ModelArts Standard上运行GPU单机多卡训练任务 - AI开发平台ModelArts

规格：选择8卡GPU规格。计算节点：1。 SFS Turbo：增加挂载配置，选择SFS名称，云上挂载路径为“/home/ma-user/work”。为了和Notebook调试时代码路径一致，保持相同的启动命令，因此云上挂载路径需要填写为“/home/ma-user/work”。单击“提交”，

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练任务
ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

服务器的状态变为“运行中”时，弹性云服务器创建成功。单击“名称/ID”，进入服务器详情页面，查看虚拟私有云配置信息。图4 购买弹性云服务器时选择VPC 图5 查看虚拟私有云配置信息获取在线服务的IP和端口号可以通过使用图形界面的软件（以Postman为例）获取服务的IP和端

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
停止计费 - AI开发平台ModelArts
停止计费 - AI开发平台ModelArts

停止计费在不需要使用ModelArts服务功能时，需要删除或停止正在计费的项目。自动学习、Workflow、开发环境、模型训练、在线服务、专属资源池涉及到需要停止的计费项如下：自动学习：停止因运行自动学习作业而创建的训练作业和在线服务。删除存储到OBS中的数据及OBS桶。 W

帮助中心 > AI开发平台ModelArts > 计费说明
配置Lite Cluster存储 - AI开发平台ModelArts

配置Lite Cluster存储如果没有挂载任何外部存储，此时可用存储空间根据dockerBaseSize的配置来决定，可访问的存储空间比较小，因此建议通过挂载外部存储空间解决存储空间受限问题。容器中挂载存储有多种方式，不同的场景下推荐的存储方式不一样，详情如表1所示。容器存

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
修改批量服务配置 - AI开发平台ModelArts

修改批量服务配置对于已部署的服务，您可以修改服务的基本信息以匹配业务变化，更换模型的版本号，实现服务升级。您可以通过如下两种方式修改服务的基本信息：方式一：通过服务管理页面修改服务信息方式二：通过服务详情页面修改服务信息前提条件服务已部署成功，“部署中”的服务不支持修改服务信息进行升级。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
请求超时返回Timeout - AI开发平台ModelArts

请求超时返回Timeout 问题现象服务预测请求超时原因分析请求超时，大概率是APIG（API网关）拦截问题。需排查APIG（API网关）和模型。处理方法优先排查APIG（API网关）是否是通的，可以在本地使用curl命令排查，命令行：curl -kv {预测地址}。如

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测

总条数： 1049

上一页
1
...
40
41
42
...
53
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts创建分布式训练时如何设置NCCL环境变量？ - AI开发平台ModelArts

使用JupyterLab在线开发和调试代码 - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练任务 - AI开发平台ModelArts

训练专属预置镜像列表 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

资源池监控 - AI开发平台ModelArts

扩缩容Lite Cluster资源池 - AI开发平台ModelArts

产品优势 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

SDXL WebUI基于DevServer适配PyTorch NPU推理指导（6.3.902） - AI开发平台ModelArts

Open-Sora-Plan1.0基于DevServer适配PyTorch NPU训练推理指导（6.3.907） - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

使用Notebook进行代码调试 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练任务 - AI开发平台ModelArts

ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

停止计费 - AI开发平台ModelArts

配置Lite Cluster存储 - AI开发平台ModelArts

修改批量服务配置 - AI开发平台ModelArts

请求超时返回Timeout - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线