搜索_华为云

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

CUDA-capable device is detected although requirements are installed’ 原因分析出现该问题的可能原因如下：用户/训练系统，将CUDA_VISIBLE_DEVICES传错了，检查CUDA_VISIBLE_DEVICES变量是否正常。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

如下报错： RuntimeError: Cannot re-initialize CUDA in forked subprocess 原因分析出现该问题的可能原因如下： multiprocessing启动方式有误。处理方法可以参考官方文档，如下： """run.py:"""

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

贴到同一个文件中，而不是调用某些抽象提取出的模块化库。Diffusers的这种设计原则的好处是代码简单易用、对代码贡献者友好。然而，这种反软件结构化的设计也有明显的缺点。由于缺乏统一的模块化库，对于昇腾适配而言变得更加复杂，必须针对每个不同业务的Pipeline进行单独适配。本文以Stable

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

的部署，需要先联系您所在企业的华为方技术支持。约束限制本文档适配昇腾云ModelArts 6.3.905版本，请参考表1获取配套版本的软件包，请严格遵照版本配套关系使用本文档。本文档中的模型运行环境是ModelArts Lite Server。镜像适配的Cann版本是cann_8

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905）
SD1.5基于Lite Server适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

pytorch_2.1.0 获取软件和镜像表2 获取软件和镜像分类名称获取路径插件代码包 ascendcloud-aigc-6.3.904-xxx.tar.gz 文件名中的xxx表示具体的时间戳，以包的实际时间为准。获取路径：Support-E网站。说明：如果没有软件下载权限，请联系您所在企业的华为方技术支持下载获取。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
重置节点后无法正常使用？ - AI开发平台ModelArts

且用户设置了volcano为默认调度器时，在ModelArts侧进行重置节点的操作后，节点无法正常使用，节点上的POD会调度失败。原因分析在ModelArts侧进行节点重置后，modelarts-os会向节点添加准入污点，进行节点准入，而因为集群volcano没有污点容忍，

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

问题现象使用pytorch进行分布式训练时，日志中出现报错“RuntimeError: connect() timed out”。原因分析出现该问题的可能原因如下：如果在此之前是有进行数据复制的，每个节点复制的速度不是同一个时间完成的，然后有的节点没有复制完，其他节点进行torch

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

RuntimeError: cuda runtime error (10) : invalid device ordinal at xxx 图1 错误日志原因分析可以从以下角度排查：请检查CUDA_VISIBLE_DEVICES设置的值是否与作业规格匹配。例如您选择4卡规格的作业，实际可用的卡I

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
通过API接口查询模型详情，model_name返回值出现乱码 - AI开发平台ModelArts

l_model_b","model_version":"0.0.1","model_type":"TensorFlow"...... 原因分析当模型名称包含下划线时，下划线涉及转义处理。处理方法需要在请求中增加exact_match参数，且参数值设置为true，确保model_name返回值正确。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
批量添加样本 - AI开发平台ModelArts

<>=&"'特殊字符，长度为0-1024位。 sample_type 否 Integer 样本类型。可选值如下： 0：图像 1：文本 2：语音 4：表格 6：视频 9：自由格式表5 DataSource 参数是否必选参数类型描述 data_path 否 String 数据源所在路径。 data_type

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
在MaaS中创建模型 - AI开发平台ModelArts

对话问答、数学推理、代码生成、翻译中文、英文 Llama2 文本生成对话问答、智能创作、文本摘要英文 Llama3 文本生成对话问答、智能创作、文本摘要英文 Llama3.1 文本生成对话问答、智能创作、文本摘要英文 Yi 文本生成代码生成、数学推理、对话问答中文、英文

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”如何解决？ - AI开发平台ModelArts

Code连接开发环境时报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”。原因分析文件夹“.ssh”的权限不仅是Windows当前用户拥有，或者当前用户权限不足，故修改权限即可。解决方案找到.ssh文件夹。一般位于

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
训练作业进程异常退出 - AI开发平台ModelArts

训练作业运行失败，日志中出现如下类似报错： [Modelarts Service Log]Training end with return code: 137 原因分析日志显示训练进程的退出码为137。训练进程表示用户的代码启动后的进程，所以这里的退出码是用户的训练作业代码返回的。常见的错误码还包括247、139等。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
给子账号配置部署上线基本使用权限 - AI开发平台ModelArts

obs:bucket:ListAllMyBuckets 创建批量服务。按需配置。边缘服务 CES ces:metricData:list 查看服务的监控指标。按需配置。 IEF IEF Administrator 管理边缘服务。按需配置。创建自定义策略时，建议将项目级云服务和全局级云

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
Lite Cluster资源开通 - AI开发平台ModelArts

安装后执行脚本：请输入脚本命令，命令中不能包含中文字符，需传入Base64转码后的脚本，转码后的字符数不能超过2048。脚本将在Kubernetes软件安装后执行，不影响Kubernetes软件安装。说明：暂不支持资源池中的存量节点池修改名称。请不要在安装后执行脚本中使用reboot命令立即重启，如果需要重启，可以使用“shutdown

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？ - AI开发平台ModelArts

VS Code连接Notebook一直提示选择证书，且提示信息除标题外，都是乱码。选择证书后，如上图所示仍然没有反应且无法进行连接。原因分析当前环境未装OpenSSH或者OpenSSH未安装在默认路径下，详情请参考VS Code文档。解决方法如果当前环境未安装OpenSSH，请下载并安装OpenSSH。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
Notebook提示磁盘空间已满 - AI开发平台ModelArts

Space left on Device。在Notebook执行代码时，出现如下报错，提示：Disk quota exceeded。原因分析在JupyterLab浏览器左侧导航删除文件后，会默认放入回收站占用内存，导致磁盘空间不足。磁盘配额不足。处理方法查看虚拟机所使用

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
训练过程中无法找到so文件 - AI开发平台ModelArts

libcudart.so.9.0 cannot open shared object file no such file or directory 原因分析编译生成so文件的cuda版本与训练作业的cuda版本不一致。处理方法编译环境的cuda版本与训练环境不一致，训练作业运行就会报错。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
查询团队标注任务统计信息 - AI开发平台ModelArts

100：文本分类 101：命名实体 102：文本三元组关系标签 103：文本三元组实体标签 200：语音分类 201：语音内容 202：语音分割 600：视频标注表5 PairOfintAndHardDetail 参数参数类型描述 key Integer 难例原因出现的次数。 value HardDetail

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件问题现象使用自定义镜像创建训练作业，出现如下报错，提示找不到运行的主文件：no such file or directory。原因分析根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。处理方法需要排查执行命令的启动文件目录是否正确，具体操作如下：在M

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败

总条数： 1142

上一页
1
...
49
50
51
...
58
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

SD1.5基于Lite Server适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

通过API接口查询模型详情，model_name返回值出现乱码 - AI开发平台ModelArts

批量添加样本 - AI开发平台ModelArts

在MaaS中创建模型 - AI开发平台ModelArts

报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”如何解决？ - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

给子账号配置部署上线基本使用权限 - AI开发平台ModelArts

Lite Cluster资源开通 - AI开发平台ModelArts

报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？ - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

训练过程中无法找到so文件 - AI开发平台ModelArts

查询团队标注任务统计信息 - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线