检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
服务部署、启动、升级和修改时,拉取镜像失败如何处理? 问题现象 服务部署、启动、升级和修改时,拉取镜像失败。 原因分析 节点磁盘不足,镜像大小过大。 解决方法 首先考虑优化镜像,减小节点磁盘的占用。 优化镜像无法解决问题,请联系系统管理员处理。 父主题: 服务部署
如何删除预置镜像中不需要的工具 预置的基础镜像中存在cpp、gcc等调试/编译工具,如果您不需要使用这些工具,可以通过运行脚本删除。 创建一个run.sh脚本文件,文件中的代码内容如下。然后在容器中执行sh run.sh命令运行脚本。 #!/bin/bash delete_sniff_compiler()
将pytorch.tar.gz上传到OBS并设置公共读,并在构建时wget获取、解压、清理。 新镜像构建 基础镜像一般选用ubuntu 18.04的官方镜像,或者nvidia官方提供的带cuda驱动的镜像。相关镜像直接到dockerhub官网查找即可。 构建流程:安装所需的apt包、驱动,配置m
scripts/install.sh 直接下载安装资源,或通过 Dockerfile 下载安装资源并构建一个新的镜像。 若用户的机器或资源池无法连通网络,并无法git clone下载代码、安装python依赖包的情况下,用户则需要找到已联网的机器(本章节以Linux系统机器为例)提前下载资源,以实现离线安装。用户可遵循以下步骤:
服务部署、启动、升级和修改时,镜像不断重启如何处理? 问题现象 服务部署、启动、升级和修改时,镜像不断重启。 原因分析 容器镜像代码错误 解决方法 根据容器日志进行排查,修复代码,重新创建模型,部署服务。 父主题: 服务部署
ma-cli image镜像构建支持的命令 ma-cli image命令支持:查询用户已注册的镜像、查询/加载镜像构建模板、Dockerfile镜像构建、查询/清理镜像构建缓存、注册/取消注册镜像、调试镜像是否可以在Notebook中使用等。具体命令及功能可执行ma-cli image
定的OBS目录下的所有文件和文件夹复制到镜像中的指定路径下,镜像内路径可以通过self.model_path获取。 处理方法 获取镜像内的路径方法见模型推理代码编写说明。 父主题: 模型管理
OBS模型包规范 模型包的名字必须为model。模型包规范请参见模型包规范介绍。 文件大小规范 当使用公共资源池时,SWR的镜像大小(指下载后的镜像大小,非SWR界面显示的压缩后的镜像大小)和OBS模型包大小总和不大于30G。 https示例 使用Flask启动https,Webserver代码示例如下:
enabled” 原因分析 出现该问题的可能原因如下: 新安装的包与镜像中带的CUDA版本不匹配。 处理方法 必现的问题,使用本地Pycharm远程连接Notebook调试安装。 先远程登录到所选的镜像,使用“nvcc -V”查看目前镜像自带的CUDA版本。 重装torch等,需要注意选择与上一步版本相匹配的版本。
如何查询自定义镜像的cuda和cudnn版本? 查询cuda版本: cat /usr/local/cuda/version.txt 查询cudnn版本: cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2 父主题:
自定义镜像需上传至容器镜像服务(SWR),才能用于ModelArts Standard上训练。 自定义镜像的启动命令规范 用户遵循ModelArts镜像的规范要求制作镜像,选择自己的镜像,并且通过指定代码目录(可选)和启动命令的方式来创建的训练作业。 图1 创建训练作业选择自定义方式
更新Notebook实例 变更镜像 ModelArts允许用户在同一个Notebook实例中切换镜像,方便用户灵活调整实例的AI引擎。Notebook实例状态需在“停止”中才可以变更镜像。 请注意,变更镜像后可能会导致Notebook实例无法启动,镜像对应的Notebook实例规格
文件上传下载 如何在Notebook中上传下载OBS文件? 如何上传本地文件至Notebook? 如何导入大文件到Notebook中? upload后,数据将上传到哪里? 如何下载Notebook中的文件到本地? 如何将开发环境Notebook A的数据复制到Notebook B中?
接口进行配置。 “镜像复制” 镜像复制开关,选择是否将容器镜像中的模型镜像复制到ModelArts中。 关闭时,表示不复制模型镜像,可极速创建模型,更改或删除SWR源目录中的镜像会影响服务部署。 开启时,表示复制模型镜像,无法极速创建模型,SWR源目录中的镜像更改或删除不影响服务部署。
【下线公告】华为云ModelArts服务模型转换下线公告 华为云ModelArts服务模型转换在2024年4月30日 00:00(北京时间)正式下线。 下线范围 下线区域:华为云全部Region 下线影响 正式下线后,用户将无法再使用模型转换的功能,包括创建和删除模型转换任务、查询模型转换任务列表和详情功能。
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的 llm_train/AscendSpeed 代码目录。 图1 创建训练作业 若镜像使用使用基础镜像(二选一)中的基础镜像时,训练作业启动命令中输入: cd /home/ma-use
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的 llm_train/AscendSpeed 代码目录。 图1 创建训练作业 若镜像使用使用基础镜像(二选一)中的基础镜像时,训练作业启动命令中输入: cd /home/ma-use
装infiniband官方驱动,以使用infiniband网卡进行分布式通信,提升训练性能。infiniband驱动需要在制作镜像时安装。 操作步骤 下载MLNX_OFED_LINUX-4.3-1.0.1.0-ubuntu16.04-x86_64.tgz。 进入地址,单击“Download”,选择“Archive
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的llm_train/AscendSpeed代码目录。 图1 创建训练作业 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/m
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的llm_train/AscendSpeed代码目录。 图1 创建训练作业 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/m