搜索_华为云

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” 问题现象使用pytorch进行分布式训练时，日志中出现报错“RuntimeError: connect() timed out”。原因分析出现该问题的可能原因如下：如果在此之前是有进行数据复制

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” 问题现象训练作业失败，日志报出如下错误： RuntimeError: cuda runtime error (10) : invalid device ordinal

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配问题现象在现有镜像基础上，重新装了引擎版本，或者编译了新的CUDA包，出现如下错误： 1.“RuntimeError: cuda runtime error (11) : invalid argument at /pytorch/aten/s

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel）本章节介绍基于PyTorch引擎的多机多卡数据并行训练。并提供了分布式训练调测具体的代码适配操作过程和代码示例。同时还针对Resnet18在cifar10数据集上的分类任务，给出了分布式训练改造(DDP)的完整代码示例，供用户学习参考。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
调整模型后，部署新版本AI应用能否保持原API接口不变？ - AI开发平台ModelArts

调整模型后，部署新版本AI应用能否保持原API接口不变？ ModelArts提供多版本支持和灵活的流量策略，您可以通过使用灰度发布，实现模型版本的平滑过渡升级。修改服务部署新版本模型或者切换模型版本时，原服务预测API不会变化。调整模型版本的操作可以参考如下的步骤。前提条件已存在部署完成的服务。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
日志提示“ Network is unreachable” - AI开发平台ModelArts

日志提示“ Network is unreachable” 问题现象在使用pytorch时，将torchvision.models中的pretrained置为了True，日志中出现如下报错： ‘OSError: [Errno 101] Network is unreachable’

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
查询Workflow工作流 - AI开发平台ModelArts

查询Workflow工作流功能介绍通过ID查询Workflow工作流详情。接口约束无调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{pro

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
查询节点池列表 - AI开发平台ModelArts

查询节点池列表功能介绍查询节点池列表。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/pools/{pool_name}/nodepools

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
创建Workflow数据集版本发布节点 - AI开发平台ModelArts

创建Workflow数据集版本发布节点功能介绍通过对ModelArts数据集能力进行封装，实现数据集的版本自动发布的功能。数据集版本发布节点主要用于将已存在的数据集或者标注任务进行版本发布，每个版本相当于数据的一个快照，可用于后续的数据溯源。主要应用场景如下：对于数据标注这

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
训练作业日志中提示 “AttributeError: module '***' has no attribute '***'” - AI开发平台ModelArts

训练作业日志中提示 “AttributeError: module '***' has no attribute '***'” 问题现象训练日志中出现AttributeError: module '***' has no attribute '***'错误。如：AttributeError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
获取Execution列表 - AI开发平台ModelArts

获取Execution列表功能介绍查询Workflow下的执行记录列表。接口约束无调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{proj

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
OOM导致训练作业失败 - AI开发平台ModelArts

OOM导致训练作业失败问题现象因为OOM导致的训练作业失败，会有如下几种现象。错误码返回137，如下图所示。 Modelarts Service Log Trainina end with return code: 137 Modelarts Service Log]handle

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
在Workflow中指定仅运行部分节点 - AI开发平台ModelArts

在Workflow中指定仅运行部分节点 Workflow通过支持预置场景的方式来实现部分运行的能力，在开发工作流时按照场景的不同对DAG进行划分，之后在运行态可选择任意场景单独运行。具体代码示例如下所示： workflow =wf.Workflow( name="image_cls"

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > Workflow高阶能力
批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts

批量服务输入/输出obs目录不存在或者权限不足问题现象输入输出目录不存在，报如下错误 "error_code": "ModelArts.3551", "error_msg": "OBS path xxxx does not exist." 当访问目录权限不足时，报如下错误 "error_code":

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
推理场景介绍 - AI开发平台ModelArts

推理场景介绍方案概览本方案介绍了在ModelArts的Lite k8s Cluster上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
扩缩容Standard专属资源池 - AI开发平台ModelArts

扩缩容Standard专属资源池场景介绍当专属资源池创建完成，使用一段时间后，由于用户AI开发业务的变化，对于资源池资源量的需求可能会产生变化，面对这种场景，ModelArts Standard专属资源池提供了扩缩容功能，用户可以根据自己的需求动态调整。使用扩容功能时，可以增加资源池已有规格的实例数量。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
训练作业失败，返回错误码139 - AI开发平台ModelArts

训练作业失败，返回错误码139 问题现象训练作业运行失败，返回错误码139，如下图所示： [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用llm-compressor工具量化 - AI开发平台ModelArts

使用llm-compressor工具量化当前版本使用llm-compressor工具量化仅支持Deepseek-v2系列模型的W8A8量化。本章节介绍如何在GPU的机器上使用开源量化工具llm-compressor量化模型权重，然后在NPU的机器上实现推理量化。具体操作如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
VS Code连接Notebook方式介绍 - AI开发平台ModelArts

VS Code连接Notebook方式介绍 Visual Studio Code (VS Code) 是一个流行的代码编辑器，它支持多种编程语言和开发环境。支持通过VS Code连接和使用Jupyter Notebook。当用户创建完成支持SSH的Notebook实例后，使用VS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
审核并验收团队标注任务结果 - AI开发平台ModelArts

审核并验收团队标注任务结果审核团队标注任务结果团队标注成员完成后，团队审核者可以对标注结果进行审核。登录ModelArts管理控制台，左侧菜单栏选择“数据准备>数据标注”，在数据标注页面选择“我参与的”，在任务列表“操作”列单击“审核”，发起审核。图1 发起审核在审核页

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过团队标注方式标注数据

总条数： 1450

上一页
1
...
68
69
70
...
73
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

调整模型后，部署新版本AI应用能否保持原API接口不变？ - AI开发平台ModelArts

日志提示“ Network is unreachable” - AI开发平台ModelArts

查询Workflow工作流 - AI开发平台ModelArts

查询节点池列表 - AI开发平台ModelArts

创建Workflow数据集版本发布节点 - AI开发平台ModelArts

训练作业日志中提示 “AttributeError: module '' has no attribute ''” - AI开发平台ModelArts

获取Execution列表 - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

在Workflow中指定仅运行部分节点 - AI开发平台ModelArts

批量服务输入/输出obs目录不存在或者权限不足 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

扩缩容Standard专属资源池 - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

VS Code连接Notebook方式介绍 - AI开发平台ModelArts

审核并验收团队标注任务结果 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线