搜索_华为云

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？问题现象服务部署、启动、升级和修改时，拉取镜像失败。原因分析节点磁盘不足，镜像大小过大。解决方法首先考虑优化镜像，减小节点磁盘的占用。优化镜像无法解决问题，请联系系统管理员处理。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
如何删除预置镜像中不需要的工具 - AI开发平台ModelArts

如何删除预置镜像中不需要的工具预置的基础镜像中存在cpp、gcc等调试/编译工具，如果您不需要使用这些工具，可以通过运行脚本删除。创建一个run.sh脚本文件，文件中的代码内容如下。然后在容器中执行sh run.sh命令运行脚本。 #!/bin/bash delete_sniff_compiler()

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
创建模型时，OBS文件目录对应镜像里面的目录结构是什么样的？ - AI开发平台ModelArts

定的OBS目录下的所有文件和文件夹复制到镜像中的指定路径下，镜像内路径可以通过self.model_path获取。处理方法获取镜像内的路径方法见模型推理代码编写说明。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge - AI开发平台ModelArts

在Notebook里保存镜像时报错“Buildimge,False,Error response from daemon: Cannot pause container xxx”。原因分析执行镜像保存时，Notebook中存在状态为D的进程，会导致镜像保存失败。解决方案在Terminal里执行ps

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
开发用于自定义镜像训练的代码 - AI开发平台ModelArts

自定义镜像需上传至容器镜像服务（SWR），才能用于ModelArts Standard上训练。自定义镜像的启动命令规范用户遵循ModelArts镜像的规范要求制作镜像，选择自己的镜像，并且通过指定代码目录（可选）和启动命令的方式来创建的训练作业。图1 创建训练作业选择自定义方式

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
如何查询自定义镜像的cuda和cudnn版本？ - AI开发平台ModelArts

如何查询自定义镜像的cuda和cudnn版本？查询cuda版本： cat /usr/local/cuda/version.txt 查询cudnn版本： cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2 父主题：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
自定义镜像导入模型部署上线调用API报错 - AI开发平台ModelArts

自定义镜像导入模型部署上线调用API报错部署上线调用API报错，排查项如下：确认配置文件模型的接口定义中有没有POST方法。确认配置文件里url是否有定义路径。例如：“/predictions/poetry”（默认为“/”）。确认API调用中body体中的调用路径是否拼接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

enabled” 原因分析出现该问题的可能原因如下：新安装的包与镜像中带的CUDA版本不匹配。处理方法必现的问题，使用本地Pycharm远程连接Notebook调试安装。先远程登录到所选的镜像，使用“nvcc -V”查看目前镜像自带的CUDA版本。重装torch等，需要注意选择与上一步版本相匹配的版本。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
自定义镜像模型部署为在线服务时出现异常 - AI开发平台ModelArts

自定义镜像模型部署为在线服务时出现异常问题现象在部署在线服务时，部署失败。进入在线服务详情页面，“事件”页签，提示“failed to pull image, retry later”，同时在“日志”页签中，无任何信息。图1 部署在线服务异常解决方法出现此问题现象，通常

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
创建Notebook失败，查看事件显示JupyterProcessKilled - AI开发平台ModelArts

启的，如果没有自动重启，创建一直失败，请确认是否是自定义镜像的问题。解决方案排查是否是自定义镜像的问题。自定义镜像构建完成，在ModelArts镜像管理注册时，“架构”和“类型”需要和源镜像保持一致。图2 注册镜像父主题：实例故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
配置Workflow参数 - AI开发平台ModelArts

用户修改配置使用。属性总览（Placeholder）属性描述是否必填数据类型 name 参数名称，需要保证全局唯一。是 str placeholder_type 参数类型，与真实数据类型的映射关系如下： PlaceholderType.INT -> int PlaceholderType

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
删除训练作业参数 - AI开发平台ModelArts

删除训练作业参数功能介绍删除训练作业参数。 URI DELETE /v1/{project_id}/training-job-configs/{config_name} 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id 是 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信当用户使用基于MPI和Horovod框架的自定义镜像进行分布式训练时，需配置训练作业节点间SSH免密互信，否则训练会失败。配置节点间SSH免密互信涉及代码适配和训练作业参数配置，本文提供了一个操作示例。准备一个预装OpenSSH的自

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

需要手动调整优先级，执行命令export LD_LIBRARY_PATH=/usr/local/cuda-9.1/lib64:$LD_LIBRARY_PATH 父主题：自定义镜像故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
创建训练作业时，超参目录为什么有的是/work有的是/ma-user？ - AI开发平台ModelArts

创建训练作业时，输入输出参数的超参目录有的是/work，有的是/ma-user。图1 目录是/ma-user 图2 目录是/work 解决方案这是创建训练作业选用的算法有差异导致的。如果选择的算法是使用旧版镜像创建的，那么创建训练作业时输入输出参数的超参目录就是/work。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
错误码 - AI开发平台ModelArts
错误码 - AI开发平台ModelArts

ModelArts.2767 ParameterKeyRepeat 参数名称重复请重命名参数名称 400 ModelArts.2768 DefaultValueTypeError 默认值与参数类型不一致请检查默认值参数类型 400 ModelArts.2769 DefaultValueIsNotInRange

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件问题现象使用自定义镜像创建训练作业，出现如下报错，提示找不到运行的主文件：no such file or directory。原因分析根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。处理方法需要排查执行命令的启动文件目录是否正确，具体操作如下：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
使用自定义镜像创建在线服务，如何修改默认端口 - AI开发平台ModelArts

登录ModelArts控制台，左侧菜单选择“AI应用管理 > AI应用”；单击“创建”，进入创建AI应用界面，元模型选择“从容器镜像中选择”，选择自定义镜像；配置“容器调用接口”和端口号，端口号与模型配置文件中的端口保持一致；图1 修改端口号设置完成后，单击“立即创建”，等待AI应用状态变为“正常”；

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 模型管理 > 导入模型
在ModelArts使用自定义镜像创建训练作业时如何激活conda环境？ - AI开发平台ModelArts

在ModelArts使用自定义镜像创建训练作业时如何激活conda环境？由于训练作业运行时不是交互式的shell环境，因此无法直接使用“conda activate”命令激活指定的conda环境。但是，在自定义镜像中可参考以下命令激活conda环境： source /home/

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

高级设置推理任务类型选择推理任务类型。当模型的“任务类型”是“文本问答”或“文本生成”时，“推理任务类型”默认和模型“任务类型”一致。“推理任务类型”支持修改，如果模型文件满足自定义模型规范（推理），则“推理任务类型”支持选择“自定义”。当模型的“任务类型”是除“文本问答”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）

总条数： 1674

上一页
1
...
8
9
10
...
84
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

如何删除预置镜像中不需要的工具 - AI开发平台ModelArts

创建模型时，OBS文件目录对应镜像里面的目录结构是什么样的？ - AI开发平台ModelArts

镜像保存时报错“there are processes in 'D' status, please check process status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge - AI开发平台ModelArts

开发用于自定义镜像训练的代码 - AI开发平台ModelArts

如何查询自定义镜像的cuda和cudnn版本？ - AI开发平台ModelArts

自定义镜像导入模型部署上线调用API报错 - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

自定义镜像模型部署为在线服务时出现异常 - AI开发平台ModelArts

创建Notebook失败，查看事件显示JupyterProcessKilled - AI开发平台ModelArts

配置Workflow参数 - AI开发平台ModelArts

删除训练作业参数 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

创建训练作业时，超参目录为什么有的是/work有的是/ma-user？ - AI开发平台ModelArts

错误码 - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

使用自定义镜像创建在线服务，如何修改默认端口 - AI开发平台ModelArts

在ModelArts使用自定义镜像创建训练作业时如何激活conda环境？ - AI开发平台ModelArts

使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线