检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下: cd /home/ma-user/modelarts/user-
选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下: cd /home/ma-user/modelarts/user-
0(SP10)和aarch64架构的包为例来进行讲解。 安装固件和驱动包。 首先检查npu-smi工具是否可以正常使用,该工具必须能正常使用才能继续后面的固件驱动安装,输入命令“npu-smi info”,完整输出下图内容则为正常。 如果命令未按照下图完整输出(比如命令报错或只输出了上半部分没
d失败。 解决方法一 方法一:检查VS Code网络是否正常。在VS Code插件市场上搜索ModelArts-HuaweiCloud,如果显示如下则网络异常,请切换代理或使用其他网络。 操作完成后再次执行搜索,如果显示如下则网络正常,请回到ModelArts控制台界面再次单击界面上的“VS
使用SSH连接,报错“Connection reset”如何解决? 问题现象 原因分析 可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。 解决方法 用户重新进行申请SSH权限。 父主题: VS Code连接开发环境失败故障处理
上传镜像 操作场景 客户端上传镜像,是指在安装了容器引擎客户端的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。 如果容器引擎客户端机器为云上的ECS或CCE节点,根据机器所在区域有两种网络链路可以选择: 如果机器与容器镜像仓库在同一区域,则上传镜像走内网链路。 如果机器
Notebook保存后的镜像有Entrypoint参数,如图1。Entrypoint参数中指定的可执行文件或命令会覆盖镜像的默认启动命令,Entrypoint中指定的执行命令内容不在镜像中预置,在本地环境通过docker run启动通过Notebook保存的镜像,报错创建容器任务失败,启动文件或目录不存在,如图2。
检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl
如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4
${container_name} bash 使用ma-user用户安装依赖包。 #进入scripts目录换 cd /home/ma-user/ws/llm_train/LLaMAFactory #执行安装命令,安装依赖包及/LLaMAFactory代码包 sh install.sh 父主题: 准备工作
${container_name} bash 使用ma-user用户安装依赖包。 #进入scripts目录 cd /home/ma-user/ws/llm_train/LLaMAFactory #执行安装命令,安装依赖包及/LLaMAFactory代码包 sh install.sh 父主题: 准备工作
${container_name} bash 使用ma-user用户安装依赖包。 #进入scripts目录 cd /home/ma-user/ws/llm_train/LLaMAFactory #执行安装命令,安装依赖包及/LLaMAFactory代码包 sh install.sh 父主题: 准备工作
表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.907-xxx.zip软件包中的AscendCloud-AIGC-6.3.907-xxx.zip 说明: 包名中的xxx表示具体的时间戳,以包名的实际时间为准。 获取路径:Support-E 说明:
构建ModelArts Standard推理镜像 获取模型软件包和依赖包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 在ModelArts官方提供的基础镜像上,构建一个用于ModelArts Standard推理部署的镜像。 在模型软件包和依赖包的同层目录下,创建并编辑Dockerfile。
volumes=[nfs-x]”。 原因分析 用户账号下的SFS Turbo所在的VPC网络需要与专属资源池所在的网络打通,运行于该专属资源池的训练作业才能正常挂载SFS。因此,当训练作业挂载SFS失败时,可能是网络不通导致的。 处理步骤 进入训练作业详情页,在左侧获取SFS Turbo的名称。
镜像(二选一),详解如下: 基础镜像:用户可在训练作业中直接选择基础镜像作为运行环境,但基础镜像中pip依赖包缺少或版本不匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行install.sh文件,来安装依赖以及下载完整代码。 ECS中DockerFIle构建新镜像:在
检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl
${container_name} bash 使用ma-user用户安装依赖包。 #进入scripts目录 cd /home/ma-user/ws/llm_train/AscendFactory #执行安装命令,安装依赖包及LLaMAFactory代码包 sh install.sh llamafactory
${container_name} bash 使用ma-user用户安装依赖包。 #进入scripts目录换 cd /home/ma-user/ws/llm_train/LLaMAFactory #执行安装命令,安装依赖包及/LLaMAFactory代码包 sh install.sh 父主题: 准备工作
${container_name} bash 使用ma-user用户安装依赖包。 #进入scripts目录换 cd /home/ma-user/ws/llm_train/LLaMAFactory #执行安装命令,安装依赖包及/LLaMAFactory代码包 sh install.sh 父主题: 准备工作