搜索_华为云

通过OBS创建AI应用时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

通过OBS创建AI应用时，构建日志中提示pip下载包失败问题现象通过OBS创建AI应用构建失败，查看构建日志，提示pip下载包失败。如下载numpy 1.16版本失败。原因分析一般下载包失败时，可能有如下几个原因： pip源中不存在该包，当前默认pip源为pypi.org中的包，请在pypi

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > AI应用管理
日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts

日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” 问题现象训练作业日志运行出现如下报错：Runtimeerror: Dataloader worker (pid 46212

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
服务部署、启动、升级和修改时，镜像不断重启如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，镜像不断重启如何处理？原因分析容器镜像代码错误解决方法根据容器日志进行排查，修复代码，重新创建AI应用，部署服务。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？ - AI开发平台ModelArts

connection to instance xxx: 'ssh' ...”如何解决？问题现象或 VS Code连接Notebook一直提示选择证书，且提示信息除标题外，都是乱码。选择证书后，如上图所示仍然没有反应且无法进行连接。原因分析当前环境未装OpenSSH或者OpenSSH未安装在默认路径下，详情请参考VS

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
训练日志失败分析 - AI开发平台ModelArts

导致作业失败的原因，在训练日志界面上给出提示。提示包括三部分：失败的可能原因、推荐的解决方案以及对应的日志（底色标红部分）。图1 训练故障识别 ModelArts Standard会对部分常见训练错误给出分析建议，目前还不能识别所有错误，提供的失败可能原因仅供参考。针对分布式作

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
导入数据集失败 - AI开发平台ModelArts

导入数据集失败导入数据集失败可能原因为OBS桶类型选择错误，请您选择标准存储类型的桶导入。父主题： Standard数据管理

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
专属资源池下的在线服务停止后，启动新的在线服务，提示资源不足 - AI开发平台ModelArts

专属资源池下的在线服务停止后，启动新的在线服务，提示资源不足停止在线服务后，需要等待几分钟等待资源释放。父主题： Standard资源池

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard资源池
创建训练作业时提示“对象目录大小/数量超过限制”，如何解决？ - AI开发平台ModelArts

创建训练作业时提示“对象目录大小/数量超过限制”，如何解决？问题分析创建训练作业选择的代码目录有大小和文件个数限制。解决方法将代码目录中除代码以外的文件删除或存放到其他目录，保证代码目录大小不超过128MB，文件个数不超过4096个。父主题：创建训练作业

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

a-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本（2）执行nvidia-smi失败，提示Failed

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
数据集版本不合格 - AI开发平台ModelArts

数据集版本不合格出现此问题时，表示数据集版本发布成功，但是不满足自动学习训练作业要求，因此出现数据集版本不合格的错误提示。标注信息不满足训练要求针对不同类型的自动学习项目，训练作业对数据集的要求如下。图像分类：用于训练的图片，至少有2种以上的分类（即2种以上的标签），每种分类的图片数不少于5张。

帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 准备数据
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

常见问题模型转换失败怎么办？常见的模型转换失败原因可以通过查询转换失败错误码来确认具体导失败的原因，Stable Diffusion新推出的模型在转换中可能会遇到算子不支持的问题，可以到华为云管理页面上提交工单来寻求帮助。图片大Shape性能劣化严重怎么办？在昇腾设备上，

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
附录：微调训练常见问题 - AI开发平台ModelArts

Parameter分布到不同的NPU 增加卡数重新训练，未解决找相关人员定位。问题2：访问容器目录时提示Permission denied 解决方法：由于在容器中没有相应目录的权限，会导致访问时提示Permission denied。可以在宿主机中对相关目录做权限放开，执行命令如下。 chmod

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
附录：训练常见问题 - AI开发平台ModelArts

Parameter分布到不同的NPU 增加卡数重新训练，未解决找相关人员定位。问题2：访问容器目录时提示Permission denied 解决方法：由于在容器中没有相应目录的权限，会导致访问时提示Permission denied。可以在宿主机中对相关目录做权限放开，执行命令如下。 chmod

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
为什么通过Manifest文件导入失败？ - AI开发平台ModelArts

fest文件，重新导入，此时出现导入失败的错误。原因分析针对已发布的数据集，其对应的OBS目录下，发生了数据变化，如删除图片，导致此Manifest文件与当前OBS目录下的数据情况不符。使用此Manifest文件再次导入时，出现错误。解决方案方法1（推荐），建议将此数据集

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
服务启动失败 - AI开发平台ModelArts

拉取镜像失败服务启动失败，提示拉取镜像失败，请参考服务部署、启动、升级和修改时，拉取镜像失败如何处理？资源不足，服务调度失败服务启动失败，提示资源不足，服务调度失败，请参考服务部署、启动、升级和修改时，资源不足如何处理？内存不足服务启动失败，提示内存不足，请参考内存不足如何处理？

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
业务代码问题 - AI开发平台ModelArts

bool” 日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” 日志提示“Out of bounds nanosecond timestamp” 日志提示“Unexpected keyword argument passed to optimizer” 日志提示“no socket

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
日志提示Custom op has no reg_op_name attr - AI开发平台ModelArts

日志提示Custom op has no reg_op_name attr 问题现象日志提示：Custom op has no reg_op_name attr。图1 报错提示原因分析无。处理方法定义context时无需指定： context.ascend.provider

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
OBS操作相关故障 - AI开发平台ModelArts

8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止保存模型时出现Unable to connect to endpoint错误 OBS复制过程中提示“BrokenPipeError: Broken pipe” 日志提示“ValueError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
创建可视化作业 - AI开发平台ModelArts

is_success Boolean 请求是否成功。 error_message String 调用失败时的错误信息。调用成功时无此字段。 error_code String 调用失败时的错误码，具体请参见错误码。调用成功时无此字段。 job_id Long 可视化作业的ID。 job_name

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” 问题现象多机或多卡使用“tf.variable”会造成以下错误： WARNING:tensorflow:Gradient is None for variable:v0/tower_0/UNET_v7/sub_pixel/Variable:0

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题

总条数： 777

上一页
1
...
7
8
9
...
39
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

通过OBS创建AI应用时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts

服务部署、启动、升级和修改时，镜像不断重启如何处理？ - AI开发平台ModelArts

报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？ - AI开发平台ModelArts

训练日志失败分析 - AI开发平台ModelArts

导入数据集失败 - AI开发平台ModelArts

专属资源池下的在线服务停止后，启动新的在线服务，提示资源不足 - AI开发平台ModelArts

创建训练作业时提示“对象目录大小/数量超过限制”，如何解决？ - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

数据集版本不合格 - AI开发平台ModelArts

常见问题 - AI开发平台ModelArts

附录：微调训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

为什么通过Manifest文件导入失败？ - AI开发平台ModelArts

服务启动失败 - AI开发平台ModelArts

业务代码问题 - AI开发平台ModelArts

日志提示Custom op has no reg_op_name attr - AI开发平台ModelArts

OBS操作相关故障 - AI开发平台ModelArts

创建可视化作业 - AI开发平台ModelArts

分布式Tensorflow无法使用“tf.variable” - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线