搜索_华为云

日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” - AI开发平台ModelArts

in a non-contiguous input. 原因分析出现该问题的可能原因如下：数据输入不连续，cuDNN不支持的类型。处理方法禁用cuDNN，在训练前加入如下代码。 torch.backends.cudnn.enabled = False 将输入数据转换成contiguous。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
删除数据集 - AI开发平台ModelArts

是否必选参数类型描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求参数无响应参数无请求示例删除数据集 DELETE https://{endpoint}/v2/{

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
Notebook运行代码报错，在'/tmp'中到不到文件 - AI开发平台ModelArts

'home/ma-user/work/SR/RDN_train_base'] 图1 运行代码报错原因分析根据报错提示，需要排查是否将大量数据被保存在“/tmp”中。处理方法进入到“Terminal”界面。在“/tmp”目录下，执行命令du -sh *，查看该目录下的空间占用情况。 sh-4.3$cd /tmp

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
订阅的模型一直处于等待同步状态 - AI开发平台ModelArts

ModelArts.0108: 您未被授权执行该操作。订阅已过期。执行同步操作时报错：ModelArts.5055: 订阅已过期。处理方法在权限管理页面进行依赖服务的授权。完成委托授权请参考了解ModelArts权限配置。检查是否有OBS权限或者接口操作权限。订阅已过期，可以在AI

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
从OBS中导入模型文件创建模型 - AI开发平台ModelArts

模型基本信息参数说明参数名称说明名称模型名称。支持1～64位可见字符（含中文），名称可以包含字母、中文、数字、中划线、下划线。版本设置所创建模型的版本。第一次导入时，默认为0.0.1。说明：模型创建完成后，可以通过创建新版本，导入不同的元模型进行调优。描述模型的简要描述。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
训练启动脚本说明和参数配置 - AI开发平台ModelArts

规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量文本序列长度并行参数设置规格与节点数 1 llama2 llama2-7b SEQ_LEN=4096 TP(tensor model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
查询资源规格列表 - AI开发平台ModelArts

get_train_instance_types参数说明参数是否必选参数类型描述 session 是 Object 会话对象，初始化方法请参考Session鉴权。表2 成功响应参数说明参数类型描述 List 资源规格参数列表。表3 调用训练接口失败响应参数参数类型

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 资源和引擎规格接口
报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决？ - AI开发平台ModelArts

disabled.”如何解决？问题现象或原因分析 Notebook实例重新启动后，公钥发生变化，OpenSSH核对公钥发出警告。解决方法在VS Code中使用命令方式进行远程连接时，增加参数"-o StrictHostKeyChecking=no" ssh -tt -o

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
PyTorch1.0引擎提示“RuntimeError: std:exception” - AI开发平台ModelArts

std:exception” 原因分析 PyTorch1.0镜像中的libmkldnn软连接与原生torch的冲突，具体可参看文档。处理方法按照issues中的说明，应该是环境中的库冲突了，因此在启动脚本最开始之前，添加如下代码。 import os os.system("rm

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
删除处理任务 - AI开发平台ModelArts

tasks/{task_id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 task_id 是 String 数据处理任务ID。请求参数无响应参数无请求示例删除数据处理任务 DELETE

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

原因分析容器提供的健康检查接口调用失败。容器健康检查接口调用失败，原因可能有两种：镜像健康检查配置问题模型健康检查配置问题解决方法根据容器日志进行排查，查看健康检查接口失败的具体原因。镜像健康检查配置问题，需修复代码后重新制作镜像创建模型后部署服务。了解镜像健康接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

/cache”，实际下载的数据会翻倍。例如只下载了2.5TB的数据，程序就显示空间不够而失败，因为/cache只有4TB的可用空间。处理方法在使用Tensorflow多节点作业下载数据时，正确的下载逻辑如下： import argparse parser = argparse

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
在线服务预测报错ModelArts.4302 - AI开发平台ModelArts

4302 问题现象在线服务部署完成且服务已经处于“运行中”的状态后，向运行的服务发起推理请求，报错ModelArts.4302。原因分析及处理方法服务预测报错ModelArts.4302有多种场景，以下主要介绍两种场景： "error_msg": "Gateway forwarding

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

eras官方文档请参见https://github.com/keras-team/keras/releases/tag/2.3.0。处理方法将训练代码里的参数名称“lr”改成“learning_rate”。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
同步数据集 - AI开发平台ModelArts

是否必选参数类型描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求参数无响应参数无请求示例同步数据集 POST https://{endpoint}/v2/{pr

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
删除数据集标注版本 - AI开发平台ModelArts

是否必选参数类型描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 version_id 是 String 数据集版本ID。请求参数无响应参数无请求示例删除数据集标注版本

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
删除团队标注任务 - AI开发平台ModelArts

是否必选参数类型描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workforce_task_id 是 String 团队标注任务ID。请求参数无响应参数无请求示例

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
上传数据至OBS（首次使用时需要） - AI开发平台ModelArts

1k_whole_map_val.txt。下载完成后将上述3个文件数据上传至OBS桶中的imagenet21k_whole文件夹中。上传方法请参考上传数据和算法至OBS（首次使用时需要）。父主题：多机多卡

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

原因分析运行参数中未定义该参数。在训练环境中，系统可能会传入在Python脚本里没有定义的其他参数名称，导致参数无法解析，日志报错。处理方法参数定义中增加该参数的定义，代码示例如下： parser.add_argument('--init_method', default='tcp://xxx'

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
部署的在线服务状态为告警 - AI开发平台ModelArts

部署的在线服务状态为告警问题现象在部署在线服务时，状态显示为“告警”。解决方法使用状态为告警的服务进行预测，可能存在预测失败的风险，请从以下4个角度进行排查，并重新部署。后台预测请求过多。如果您使用API接口进行预测，请检查是否预测请求过多。大量的预测请求会导致部署的在线服务进入告警状态。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署

总条数： 1511

上一页
1
...
55
56
57
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” - AI开发平台ModelArts

删除数据集 - AI开发平台ModelArts

Notebook运行代码报错，在'/tmp'中到不到文件 - AI开发平台ModelArts

订阅的模型一直处于等待同步状态 - AI开发平台ModelArts

从OBS中导入模型文件创建模型 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

查询资源规格列表 - AI开发平台ModelArts

报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决？ - AI开发平台ModelArts

PyTorch1.0引擎提示“RuntimeError: std:exception” - AI开发平台ModelArts

删除处理任务 - AI开发平台ModelArts

服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

在线服务预测报错ModelArts.4302 - AI开发平台ModelArts

日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

同步数据集 - AI开发平台ModelArts

删除数据集标注版本 - AI开发平台ModelArts

删除团队标注任务 - AI开发平台ModelArts

上传数据至OBS（首次使用时需要） - AI开发平台ModelArts

ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

部署的在线服务状态为告警 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线