搜索_华为云

作为调用发起方的客户端无法访问已经获取到的推理请求地址 - AI开发平台ModelArts

法解析的现象。原因分析在调用指南页签中显示的调用地址都是华为云APIG（API网关服务）的地址。调用发起方的客户端和华为云网络不通。处理方法如果客户端位于华为云网络之外，保证客户端所处的网络环境可以连接Internet；如果客户端位于华为云网络内，默认的网络配置即可以访

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
Pytorch Mox日志反复输出 - AI开发平台ModelArts

Pytorch通过spawn模式创建了多个进程，每个进程会调用多进程方式使用Mox下载数据。此时子进程会不断销毁重建，Mox也就会不断的被导入，导致打印很多Mox的版本信息。处理方法为避免训练作业Pytorch Mox日志反复输出的问题，需要您在“启动文件”中添加如下代码，当“MOX_SILENT_MODE =

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

mxnet.kv.create('dist_async') print('end') 原因分析 worker阻塞的原因可能是连不上server。处理方法将如下代码放在“启动文件”里“import mxnet”之前可以看到节点间相互通信状态，同时ps能够重新发送。 import os os

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” - AI开发平台ModelArts

passed in a non-contiguous input. 原因分析出现该问题的可能原因如下：数据输入不连续，cuDNN不支持的类型。处理方法禁用cuDNN，在训练前加入如下代码。 torch.backends.cudnn.enabled = False 将输入数据转换成contiguous。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
创建模型失败，提示模型镜像构建任务超时，没有构建日志 - AI开发平台ModelArts

未能完成构建任务，构建超时中断，即会出现“Model image build task timed out”提示，不显示详细的构建日志。处理方法预先准备需要编译下载的依赖包，减少依赖包下载和编译的时间。可通过线下wheel包方式安装运行环境依赖。线下wheel包安装，需确保wheel包与模型文件放在同一目录。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
上传远端文件至JupyterLab - AI开发平台ModelArts

输入有效的远端文件URL后，系统会自动识别上传文件名称，单击“上传”，开始上传文件。图3 输入有效的远端文件URL 图4 远端文件上传成功异常处理远端文件上传失败。可能是网络原因。请先在浏览器中输入该远端文件的URL地址，测试该文件是否能下载。图5 远端文件上传失败父主题：上传文件至JupyterLab

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发 > 上传文件至JupyterLab
ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

原因分析运行参数中未定义该参数。在训练环境中，系统可能会传入在Python脚本里没有定义的其他参数名称，导致参数无法解析，日志报错。处理方法参数定义中增加该参数的定义，代码示例如下： parser.add_argument('--init_method', default='tcp://xxx'

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

（2）执行nvidia-smi失败，提示Failed to initialize NVML: Driver/library version mismatch 处理方法执行命令：lsmod | grep nvidia，查看内核中是否残留旧版nvidia，显示如下： nvidia_uvm

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
模型训练使用流程 - AI开发平台ModelArts

当训练数据可以直接使用，无需二次处理时，可以直接将数据上传至OBS桶。在创建训练作业时，训练的输入参数位置可以直接填写OBS桶路径。当训练数据集的数据未标注或者需要进一步的数据预处理，可以先将数据导入ModelArts数据管理模块进行数据预处理。在创建训练作业时，训练的输入参数位置可以选择数据管理模块的数据集。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

使用了哪个huggingface的模型（例如digiplay/majicMIX_realistic_v6）。如果有预处理，后处理，对应的模型是什么（例如后处理的超分模型）。 - Lora/TextInversion 是否有动态加载Lora的需求，可否接受把Lora固定到模型内。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
SFT全参微调训练 - AI开发平台ModelArts

表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910）
使用AI市场物体检测YOLOv3 - AI开发平台ModelArts

does not exist. The operation, 'images', does not exist in the graph。处理方法如果切分了数据集，需要删除推理代码中“Yolov3Service”类中的如下代码： self.model_inputs = {'images':

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
Yaml配置文件参数配置说明 - AI开发平台ModelArts

则不会进行模型训练。 cutoff_len 4096 文本处理时的最大长度，此处为4096，用户可根据自己要求适配。 packing true 可选项。当选用静态数据长度时，可将不足于文本处理时的最大长度数据弥补到文本处理时的最大长度;当选用动态数据长度则去掉此参数。 deepspeed

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
Yaml配置文件参数配置说明 - AI开发平台ModelArts

则不会进行模型训练。 cutoff_len 4096 文本处理时的最大长度，此处为4096，用户可根据自己要求适配。 packing true 可选项。当选用静态数据长度时，可将不足于文本处理时的最大长度数据弥补到文本处理时的最大长度;当选用动态数据长度则去掉此参数。 deepspeed

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
查询Notebook支持的有效规格列表 - AI开发平台ModelArts

用户项目ID，获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 category 否 String 规格处理器类型。 CPU GPU ASCEND limit 否 Integer 每一页的数量，默认不限制。 offset 否 Integer 分页记录的起始位置偏移量，默认值0。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
创建Standard专属资源池 - AI开发平台ModelArts

开启“节点高级配置”开关后，支持设置实例的操作系统。存储配置部分规格支持“存储配置”开关，该参数默认关闭。系统盘打开“存储配置”开关后，可以看到每个实例默认自带的系统盘的磁盘类型、大小或数量。部分规格没有携带系统盘，在创建专属资源池时支持设置系统盘的磁盘类型和大小。容器盘打开“存储配置”开关后，可以看

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

到“/cache”，实际下载的数据会翻倍。例如只下载了2.5TB的数据，程序就显示空间不够而失败，因为/cache只有4TB的可用空间。处理方法在使用Tensorflow多节点作业下载数据时，正确的下载逻辑如下： import argparse parser = argparse

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

keras官方文档请参见https://github.com/keras-team/keras/releases/tag/2.3.0。处理方法将训练代码里的参数名称“lr”改成“learning_rate”。建议与总结在创建训练作业前，推荐您先使用ModelArts开发

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

Shell界面时，可能会出现路径显示异常情况，此时在Cloud Shell中单击回车键即可恢复正常。图3 路径异常如何使训练作业保持运行中状态由于需要训练作业处于“运行中”状态才能登录Cloud Shell，因此本文介绍如何使训练作业保持运行中状态，方便您快速通过Cloud Shell登录运行中的训练容器。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业

总条数： 1240

上一页
1
...
47
48
49
...
62
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

作为调用发起方的客户端无法访问已经获取到的推理请求地址 - AI开发平台ModelArts

Pytorch Mox日志反复输出 - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” - AI开发平台ModelArts

创建模型失败，提示模型镜像构建任务超时，没有构建日志 - AI开发平台ModelArts

上传远端文件至JupyterLab - AI开发平台ModelArts

ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

模型训练使用流程 - AI开发平台ModelArts

迁移评估 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

使用AI市场物体检测YOLOv3 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

查询Notebook支持的有效规格列表 - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线