搜索_华为云

日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” - AI开发平台ModelArts

passed in a non-contiguous input. 原因分析出现该问题的可能原因如下：数据输入不连续，cuDNN不支持的类型。处理方法禁用cuDNN，在训练前加入如下代码。 torch.backends.cudnn.enabled = False 将输入数据转换成contiguous。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用自定义镜像创建的训练作业一直处于运行中 - AI开发平台ModelArts

使用自定义镜像创建的训练作业一直处于运行中问题现象使用自定义镜像创建训练作业，训练作业的“状态”一直处于“运行中”。原因分析及处理办法日志打印如下内容，表示自定义镜像的CPU架构与资源池节点的CPU架构不一致。 standard_init_linux.go:215: exec

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
上传远端文件至JupyterLab - AI开发平台ModelArts

输入有效的远端文件URL后，系统会自动识别上传文件名称，单击“上传”，开始上传文件。图3 输入有效的远端文件URL 图4 远端文件上传成功异常处理远端文件上传失败。可能是网络原因。请先在浏览器中输入该远端文件的URL地址，测试该文件是否能下载。图5 远端文件上传失败父主题：上传文件至JupyterLab

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发 > 上传文件至JupyterLab
SFT全参微调训练 - AI开发平台ModelArts

表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
PyTorch1.0引擎提示“RuntimeError: std:exception” - AI开发平台ModelArts

“RuntimeError: std:exception” 原因分析 PyTorch1.0镜像中的libmkldnn软连接与原生torch的冲突，具体可参看文档。处理方法按照issues中的说明，应该是环境中的库冲突了，因此在启动脚本最开始之前，添加如下代码。 import os os.system("rm

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

原因分析运行参数中未定义该参数。在训练环境中，系统可能会传入在Python脚本里没有定义的其他参数名称，导致参数无法解析，日志报错。处理方法参数定义中增加该参数的定义，代码示例如下： parser.add_argument('--init_method', default='tcp://xxx'

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

（2）执行nvidia-smi失败，提示Failed to initialize NVML: Driver/library version mismatch 处理方法执行命令：lsmod | grep nvidia，查看内核中是否残留旧版nvidia，显示如下： nvidia_uvm

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败问题现象训练作业的“状态”为“运行失败”。原因分析训练作业的监控内存指标持续升高，导致最后训练作业失败。处理步骤查询训练作业的日志和监控信息，是否存在明确的OOM报错信息。是，训练作业的日志里存在OOM报错，执行2。否，训练作业的日志里没有

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
在ModelArts中图像分类和物体检测具体是什么？ - AI开发平台ModelArts

在ModelArts中图像分类和物体检测具体是什么？图像分类是根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。简单的说就是识别一张图中是否

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

该桶下创建文件夹目录用于后续存储代码使用，例如：training_data。创建VPC 虚拟私有云（Virtual Private Cloud）可以为您构建隔离的、用户自主配置和管理的虚拟网络环境，操作指导请参考创建虚拟私有云和子网。创建SFS Turbo SFS Turbo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

该桶下创建文件夹目录用于后续存储代码使用，例如：training_data。创建VPC 虚拟私有云（Virtual Private Cloud）可以为您构建隔离的、用户自主配置和管理的虚拟网络环境，操作指导请参考创建虚拟私有云和子网。创建SFS Turbo SFS Turbo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
创建OBS桶用于ModelArts存储数据 - AI开发平台ModelArts

创建桶的区域需要与ModelArts所在的区域一致。例如：当前ModelArts在华北-北京四区域，在对象存储服务创建桶时，请选择华北-北京四。如何查看OBS桶与ModelArts的所处区域，请参见查看OBS桶与ModelArts是否在同一区域。请勿开启桶加密，ModelArts不支

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

${model_name} # 模型名称 |── data # 预处理后数据 |── pretrain # 预训练加载的数据 |── finetune #

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

到“/cache”，实际下载的数据会翻倍。例如只下载了2.5TB的数据，程序就显示空间不够而失败，因为/cache只有4TB的可用空间。处理方法在使用Tensorflow多节点作业下载数据时，正确的下载逻辑如下： import argparse parser = argparse

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

keras官方文档请参见https://github.com/keras-team/keras/releases/tag/2.3.0。处理方法将训练代码里的参数名称“lr”改成“learning_rate”。建议与总结在创建训练作业前，推荐您先使用ModelArts开发

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

with error code 0” 原因分析出现该问题的可能原因如下： pytorch1.4引擎与之前pytorch1.3版本兼容性问题。处理方法在images之后添加contigous。 images = images.cuda() pred = model(images

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
依赖和委托 - AI开发平台ModelArts

obs:object:PutObject 管理OBS中的数据集标注OBS数据创建数据管理作业管理表格数据集 DLI dli:database:displayAllDatabases dli:database:displayAllTables dli:table:describeTable 在数据集中管理DLI数据

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
LoRA微调训练 - AI开发平台ModelArts

表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
VS Code一键连接Notebook - AI开发平台ModelArts

port xxxxx: Connection refused”如何解决？报错“no such identity: C:/Users/xx /test.pem: No such file or directory”如何解决？报错“Bad owner or permissions

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
日志提示“ Network is unreachable” - AI开发平台ModelArts

Network is unreachable’ 原因分析出现该问题的可能原因如下：因为安全性问题，ModelArts内部训练机器不能访问外网。处理方法将pretrained改成false，提前下载好预训练模型，加载下载好的预训练模型位置即可，可参考如下代码。 import torch

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制

总条数： 1212

上一页
1
...
45
46
47
...
61
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” - AI开发平台ModelArts

使用自定义镜像创建的训练作业一直处于运行中 - AI开发平台ModelArts

上传远端文件至JupyterLab - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

PyTorch1.0引擎提示“RuntimeError: std:exception” - AI开发平台ModelArts

ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

在ModelArts中图像分类和物体检测具体是什么？ - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

创建OBS桶用于ModelArts存储数据 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

依赖和委托 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

VS Code一键连接Notebook - AI开发平台ModelArts

日志提示“ Network is unreachable” - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线