检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
自定义镜像导入模型部署上线调用API报错 部署上线调用API报错,排查项如下: 确认配置文件模型的接口定义中有没有POST方法。 确认配置文件里url是否有定义路径。例如:“/predictions/poetry”(默认为“/”)。 确认API调用中body体中的调用路径是否拼接
定的OBS目录下的所有文件和文件夹复制到镜像中的指定路径下,镜像内路径可以通过self.model_path获取。 处理方法 获取镜像内的路径方法见模型推理代码编写说明。 父主题: 模型管理
自定义镜像需上传至容器镜像服务(SWR),才能用于ModelArts Standard上训练。 自定义镜像的启动命令规范 用户遵循ModelArts镜像的规范要求制作镜像,选择自己的镜像,并且通过指定代码目录(可选)和启动命令的方式来创建的训练作业。 图1 创建训练作业选择自定义方式
需要手动调整优先级,执行命令export LD_LIBRARY_PATH=/usr/local/cuda-9.1/lib64:$LD_LIBRARY_PATH 父主题: 自定义镜像故障
自定义镜像模型部署为在线服务时出现异常 问题现象 在部署在线服务时,部署失败。进入在线服务详情页面,“事件”页签,提示“failed to pull image, retry later”,同时在“日志”页签中,无任何信息。 图1 部署在线服务异常 解决方法 出现此问题现象,通常
登录ModelArts控制台,左侧菜单选择“AI应用管理 > AI应用”; 单击“创建”,进入创建AI应用界面,元模型选择“从容器镜像中选择”,选择自定义镜像; 配置“容器调用接口”和端口号,端口号与模型配置文件中的端口保持一致; 图1 修改端口号 设置完成后,单击“立即创建”,等待AI应用状态变为“正常”;
接口进行配置。 “镜像复制” 镜像复制开关,选择是否将容器镜像中的模型镜像复制到ModelArts中。 关闭时,表示不复制模型镜像,可极速创建模型,更改或删除SWR源目录中的镜像会影响服务部署。 开启时,表示复制模型镜像,无法极速创建模型,SWR源目录中的镜像更改或删除不影响服务部署。
使用自定义镜像创建训练作业找不到启动文件 问题现象 使用自定义镜像创建训练作业,出现如下报错,提示找不到运行的主文件:no such file or directory。 原因分析 根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。 处理方法 需要排查执行命令的启动文件目录是否正确,具体操作如下:
在ModelArts使用自定义镜像创建训练作业时如何激活conda环境? 由于训练作业运行时不是交互式的shell环境,因此无法直接使用“conda activate”命令激活指定的conda环境。但是,在自定义镜像中可参考以下命令激活conda环境: source /home/
使用python3.6-torch1.4版本镜像环境安装MMCV报错 问题现象 日志报错中存在AssertionError: MMCV==1.2.5 is used but incompatible. Please install mmcv>=1.3.1, <=1.5.0。 原因分析
使用OBS导入元模型,会用到服务侧的标准镜像,标准镜像里面没有CV2依赖的so的内容。所以ModelArts不支持从对象存储服务(OBS)导入CV2模型包。 处理方法 需要您把CV2包制作为自定义镜像,上传至容器镜像服务(SWR),选择从容器镜像中导入元模型,部署在线服务。如何制作自定义镜像请参考从0-1制作自定义镜像并创建AI应用。
用自定义镜像方式。 ModelArts推理平台不支持的AI引擎,推荐使用自定义镜像方式。 请参考创建模型的自定义镜像规范和从0-1制作自定义镜像并创建模型,制作自定义镜像。 推荐在开发环境Notebook中调试模型包,制作自定义镜像。请参考在开发环境中构建并调试推理镜像和无需构建
自定义镜像训练作业配置节点间SSH免密互信 当用户使用基于MPI和Horovod框架的自定义镜像进行分布式训练时,需配置训练作业节点间SSH免密互信,否则训练会失败。 配置节点间SSH免密互信涉及代码适配和训练作业参数配置,本文提供了一个操作示例。 准备一个预装OpenSSH的自
方式一:在Notebook实例创建页面,镜像类型选择“自定义镜像”,名称选择上述保存的镜像。 图3 创建基于自定义镜像的Notebook实例 方式二:在“镜像管理”页面,单击某个镜像的镜像详情,在镜像详情页,单击“创建Notebook”,也会跳转到基于该自定义镜像创建Notebook的页面。 镜像保存时,哪些目录的数据可以被保存
启的,如果没有自动重启,创建一直失败,请确认是否是自定义镜像的问题。 解决方案 排查是否是自定义镜像的问题。 自定义镜像构建完成,在ModelArts镜像管理注册时,“架构”和“类型”需要和源镜像保持一致。 图2 注册镜像 父主题: 实例故障
普通OBS桶。 已经安装obsutil,请参考下载和安装obsutil。 参考线下容器镜像构建及调试章节,构建容器镜像并调试,镜像构建及调试与单机单卡相同。 上传镜像,参考单机单卡训练的上传镜像章节操作。 操作步骤 登录Imagenet数据集下载官网地址,下载Imagenet21
在Notebook列表,单击某个Notebook实例操作栏的“更多 > 变更镜像”,在变更镜像窗口选择新的镜像,单击“确定”。 图1 变更镜像 在镜像窗口选择新的镜像,单击“确定”,变更成功后,在Notebook列表页的镜像栏,可以查看到变更后的镜像。 变更Notebook实例运行规格 ModelArt
ModelArts平台从对象存储服务(OBS)中导入模型包适用于单模型场景。如果有多模型复合场景,推荐使用自定义镜像方式,通过从容器镜像(SWR)中选择元模型的方式创建AI应用部署服务。制作自定义镜像请参考从0-1制作自定义镜像并创建AI应用。 父主题: 导入模型
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的llm_train/AscendSpeed代码目录。 图1 创建训练作业 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/m
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的 llm_train/AscendSpeed 代码目录。 图1 创建训练作业 若镜像使用使用基础镜像(二选一)中的基础镜像时,训练作业启动命令中输入: cd /home/ma-use