搜索_华为云

使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

'bndbox' 原因分析用于训练的数据集中，使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。处理方法此问题有两种解决方法：方法1：使用常用框架自行编码开发模型，支持“多边形”标注的数据集。方法2：修改数据集，使用矩形标注。然后再启动训练作业。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
VS Code自动升级后，导致远程连接时间过长 - AI开发平台ModelArts

VS Code自动升级后，导致远程连接时间过长问题现象原因分析由于VS Code自动升级，导致连接时需要重新下载新版vscode-server。解决方法禁止VS Code自动升级。单击左下角选择Settings项，搜索Update: Mode，将其设置为none。图1

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
在JupyterLab使用Git克隆代码仓 - AI开发平台ModelArts

Token步骤如下：登录Github，打开设置页面。单击“Developer settings”。单击“Personal access tokens > Generate new token”。验证登录账号。填写Token描述并选择权限，选择私有仓库访问权限，单击“Generate

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
AI Gallery - AI开发平台ModelArts
AI Gallery - AI开发平台ModelArts

Gallery的入口在哪里在AI Gallery订阅商品失败怎么办？在AI Gallery订阅的数据集可以在SDK中使用吗？ AI Gallery支持哪些区域？ AI Gallery下载数据到OBS中使用的带宽是用户自己的还是华为云的？

帮助中心 > AI开发平台ModelArts > 常见问题
查看批量服务的事件 - AI开发平台ModelArts

回信息为准）解决方案正常开始部署服务。 Start to deploy service. - 异常资源不足，等待资源释放。 Lack of resources, transform state to waiting. 等待资源释放后重试。异常 xxx资源不足，服务调度失败。补充信息：xxx

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
Standard开发环境 - AI开发平台ModelArts

支持本地IDE远程访问Notebook Notebook提供了远程开发功能，通过开启SSH连接，用户本地IDE可以远程连接到ModelArts的Notebook开发环境中，调试和运行代码。对于使用本地IDE的开发者，由于本地资源限制，运行和调试环境大多使用团队公共搭建的资源服务器，并且

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

NCCL是一个提供GPU间通信原语的库，实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时，可以通过调整NCCL的环境变量尝试解决问题。处理步骤进入状态“运行失败”的训练作业详情页，单击“日志”页签，查看NCCL报错。如果出现报错“NCCL timeout”或者“RuntimeError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
在ModelArts Studio基于Llama3-8B模型实现新闻自动分类 - AI开发平台ModelArts

参见表3 资源设置资源池类型资源池分为公共资源池与专属资源池。公共资源池供所有租户共享使用。专属资源池需单独创建，不与其他租户共享。公共资源池实例规格选择实例规格，规格中描述了服务器类型、型号等信息，仅显示模型支持的资源 xxx 实例数设置实例数。 1 更多选项

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
创建训练作业 - AI开发平台ModelArts

创建训练作业创建训练作业时提示“对象目录大小/数量超过限制”，如何解决？训练环境中不同规格资源“/cache”目录的大小训练作业的“/cache”目录是否安全？训练作业一直在等待中（排队）？创建训练作业时，超参目录为什么有的是/work有的是/ma-user？在Mod

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业
自定义镜像使用场景 - AI开发平台ModelArts

在您使用自定义镜像功能时，ModelArts可能需要访问您的容器镜像服务SWR、对象存储服务OBS等依赖服务，如果没有授权，这些功能将不能正常使用。建议您使用委托授权功能，将依赖服务操作权限委托给ModelArts服务，让ModelArts以您的身份使用依赖服务，代替您进行一些资源操作。详细操作参见使用委托授权。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

Step6 在ModelArts上创建训练作业登录ModelArts管理控制台，检查当前账号是否已完成访问授权的配置。如未完成，请参考使用委托授权。针对之前使用访问密钥授权的用户，建议清空授权，然后使用委托进行授权。在ModelArts管理控制台，左侧导航栏中选择“训练管理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

Step6 在ModelArts上创建训练作业登录ModelArts管理控制台，检查当前账号是否已完成访问授权的配置。如未完成，请参考快速配置ModelArts委托授权。针对之前使用访问密钥授权的用户，建议清空授权，然后使用委托进行授权。在ModelArts管理控制台，左侧导航栏中选择“模型训练

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
推理场景介绍 - AI开发平台ModelArts

DevServer驱动版本要求23.0.6。资源规格要求本文档中的模型运行环境是ModelArts Lite的DevServer。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。如果使用DevServer资源，请参考DevServer资源开通，购买DevServer资源，并确保机器已

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909）
推理场景介绍 - AI开发平台ModelArts

DevServer驱动版本要求23.0.6。资源规格要求本文档中的模型运行环境是ModelArts Lite的DevServer。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。如果使用DevServer资源，请参考DevServer资源开通，购买DevServer资源，并确保机器已

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910）
训练作业性能降低 - AI开发平台ModelArts

平台上的代码经过修改优化、训练参数有过变更。训练的GPU硬件工作出现异常。处理方法请您对作业代码进行排查分析，确认是否对训练代码和参数进行过修改。检查资源分配情况（cpu/mem/gpu/snt9/infiniband）是否符合预期。通过CloudShell登录到Linux工作页面，检查GPU工作情况：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业性能问题
训练场景和方案介绍 - AI开发平台ModelArts

系使用本文档。 Finetune训练使用单机8卡资源。 Lora训练使用单机单卡资源。 Controlnet训练使用单机单卡资源。确保容器可以访问公网。资源规格要求推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。软件配套版本表1

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
训练场景和方案介绍 - AI开发平台ModelArts

系使用本文档。 Finetune训练使用单机8卡资源。 Lora训练使用单机单卡资源。 Controlnet训练使用单机单卡资源。确保容器可以访问公网。资源规格要求推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。软件配套版本表1

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.907）
Lite Server使用流程 - AI开发平台ModelArts

在ModelArts控制台购买Server资源。资源配置完成资源购买后，需要对网络、存储、软件环境进行相关配置。资源使用完成资源配置后，您可以登录到服务器进行训练和推理，具体案例可参考Lite Server资源使用。资源管理 Lite Server提供启动、停止、切换操作系统等管

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
服务韧性 - AI开发平台ModelArts
服务韧性 - AI开发平台ModelArts

ModelArts服务具备租户资源隔离能力，避免单租户资源被攻击导致爆炸半径大，影响其他租户。 ModelArts服务具备资源池和隔离能力，避免单租户资源被攻击导致爆炸半径过大风险。 ModelArts服务定义并维护了性能规格用于自身的抗攻击性。例如：设置API访问限制，防止恶意接口调用等场景。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
典型场景配置实践 - AI开发平台ModelArts

典型场景配置实践个人用户快速配置ModelArts访问权限配置ModelArts基本使用权限给子账号配置开发环境基本使用权限给子账号配置训练作业基本使用权限给子账号配置部署上线基本使用权限管理员和开发者权限分离使用Cloud Shell登录训练容器限制用户使用公共资源池委托授权ModelArts云服务使用SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理

总条数： 768

上一页
1
...
19
20
21
...
39
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

VS Code自动升级后，导致远程连接时间过长 - AI开发平台ModelArts

在JupyterLab使用Git克隆代码仓 - AI开发平台ModelArts

AI Gallery - AI开发平台ModelArts

查看批量服务的事件 - AI开发平台ModelArts

Standard开发环境 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

在ModelArts Studio基于Llama3-8B模型实现新闻自动分类 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

自定义镜像使用场景 - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

训练作业性能降低 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

Lite Server使用流程 - AI开发平台ModelArts

服务韧性 - AI开发平台ModelArts

典型场景配置实践 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线