检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装NPU设备和驱动,或释放被挂载的NPU。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y
如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine
如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine
作为容器引擎,并默认给机器安装。如尚未安装,说明机器操作系统安装错误。需要重新纳管机器,重新安装操作系统。 安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具,使用方式和docker命令基本一致,可用于后续镜像构建步骤中。 # 下载 nerdctl
Step3 安装云端Python插件 在新打开的VS Code界面,单击左侧列表的Extensions选项,在搜索框中输入Python,在下拉列表中单击“Install”进行安装。 图8 安装云端Python插件 如果安装云端的Python插件不成功时,建议通过离线包的方式安装。具体操
有两种方式来注册镜像。 方式一:使用ma-cli image register命令来注册镜像。注册命令会返回注册好的镜像信息,包括镜像id,name等,如下图所示。该命令的更多信息可参考镜像构建命令。 ma-cli image register --swr-path=swr.cn-north-4
驱动程序问题:可能是由于驱动程序没有正确安装或配置,导致NVLINK带宽受限。重新安装nvidia驱动、CUDA和nvidia-fabricmanager等软件后,驱动程序可能已经正确配置,从而解决了这个问题。 硬件问题:如果GPU之间的NVLINK连接存在硬件故障,那么这可能会导致带宽受限。重新安装软件后,重
使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_finetune_train.sh 启动SDXL Finetune训练服务 使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_sdxl_finetune_train.sh 训练执行脚本中配置了保存ch
nda环境? 由于训练作业运行时不是交互式的shell环境,因此无法直接使用“conda activate”命令激活指定的conda环境。但是,在自定义镜像中可参考以下命令激活conda环境: source /home/ma-user/anaconda3/etc/profile.d/conda
例如,当训练代码启动脚本在OBS路径为“obs://bucket-name/app/code/train.py”,创建作业时配置代码目录为“/bucket-name/app/code/”。则代码目录配置完成后,执行如下命令,那么“run_train.sh”将选中的“code”文件夹下载到训练容器的“/home/m
com@g" /etc/apt/sources.list 安装NFS客户端,挂载对应盘。 sudo apt-get update sudo apt-get install nfs-common 获取SFS Turbo的挂载命令。 进入弹性文件服务SFS管理控制台。 选择“SFS T
容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install
安装过程预计1~2分钟,如图2所示,请耐心等待。 图2 安装过程 安装完成后,系统右下角提示安装完成,导航左侧出现ModelArts图标和SSH远程连接图标,表示VS Code插件安装完成。 图3 安装完成提示 图4 安装完成 当前网络不佳时SSH远程连接插件可能未安装成功,此时无需操作,在Step4
Notebook中安装依赖包报错ERROR: HTTP error 404 while getting xxx 问题现象 在Notebook中安装依赖包时报错,报错截图如下: 原因分析 pypi源没有这个包或源不可用。 解决方案 使用别的源下载。 pip install -i 源地址
使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_finetune_train.sh 启动SDXL Finetune训练服务 使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_sdxl_finetune_train.sh 训练执行脚本中配置了保存ch
/opt/conda/envs/my-env 执行如下命令进入conda env。 source /home/ma-user/anaconda3/bin/activate /home/ma-user/anaconda3/envs/my-env 执行如下命令在my env里安装如下依赖包。 pip install
”,表示配置模型推理代码需要的依赖包,需要提供依赖包名、安装方式和版本约束的信息,详细参数见模型配置文件编写说明。导入模型时,模型配置文件中的安装包依赖参数“dependencies”如何编写? 解决方案 安装包存在前后依赖关系。例如您在安装“mmcv-full”之前,需要完成“
不同实例的资源池安装的cuda和驱动版本号分别是什么? 专属资源池的cuda和驱动版本是可以根据用户的要求安装。如果需要调整,需提工单。 父主题: Standard资源池
部署推理服务 本章节介绍如何使用vLLM 0.6.0框架部署并启动推理服务。 前提条件 已准备好Lite k8s Cluster环境,具体参考准备环境。推荐使用“西南-贵阳一”Region上的Cluster和昇腾Snt9b资源。 安装过程需要连接互联网git clone,确保集群可以访问公网。
储和镜像知识。 配置流程 图1 Lite Cluster资源配置流程图 表1 Cluster资源配置流程 配置顺序 配置任务 场景说明 1 配置Lite Cluster网络 购买资源池后,需要弹性公网IP并进行网络配置,配置网络后可通过公网访问集群资源。 2 配置kubectl工具