检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
增加了和OBS交互工作的整个训练流程如下: 建议使用OBSutil作为和OBS交互的工具,如何在本机安装obsutil可以参考安装和配置OBS命令行工具。 训练数据、代码、模型下载。(本地使用硬盘挂载或者docker cp,在ModelArts上使用OBSutil) 启动脚本,用法无
进入benchmark_tools目录下,执行如下命令安装性能测试的关依赖。 pip install -r requirements.txt 运行静态benchmark验证脚本benchmark_parallel.py,具体操作命令如下,可以根据参数说明修改参数。 cd benchmark_tools
1 0; # 单机训练执行命令 步骤四 根据config.yaml启动作业 启动作业命令如下。首先会根据config.yaml创建pod,继而在pod容器内自动启动训练作业。 kubectl apply -f config.yaml 启动后,可通过以下命令获取所有已创建的pod信息
且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列裸金属服务器,单台服务器GPU间是走NVLINK,可以通过相关命令查询GPU拓扑模式: nvidia-smi topo -m 图1 查询GPU拓扑模式 操作步骤 使用以下脚本测得GPU服务器内NVLINK带宽性能。
由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/install
进入“self-define-images”文件夹,执行以下命令构建自定义镜像“test:v1”。 docker build -t test:v1 . 您可以使用“docker images”查看您构建的自定义镜像。 本地验证镜像并上传镜像至SWR服务 在本地环境执行以下命令启动自定义镜像 docker run
软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 AscendCloud-6.3.909代码包中AscendCloud-LLM代码包结构介绍如下,
1 0; # 单机训练执行命令 步骤四 根据config.yaml启动作业 启动作业命令如下。首先会根据config.yaml创建pod,继而在pod容器内自动启动训练作业。 kubectl apply -f config.yaml 启动后,可通过以下命令获取所有已创建的pod信息
进入“self-define-images”文件夹,执行以下命令构建自定义镜像“test:v1”。 docker build -t test:v1 . 您可以使用“docker images”查看您构建的自定义镜像。 本地验证镜像并上传镜像至SWR服务 在本地环境执行以下命令启动自定义镜像 docker run
由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下: cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/install
1 0; # 单机训练执行命令 步骤四 根据config.yaml启动作业 启动作业命令如下。首先会根据config.yaml创建pod,继而在pod容器内自动启动训练作业。 kubectl apply -f config.yaml 启动后,可通过以下命令获取所有已创建的pod信息
如果docker images命令可以执行成功,表示Docker已安装,此步骤可跳过。 启动docker。 systemctl start docker 确认Docker Engine版本。执行如下命令。 docker version | grep -A 1 Engine 命令回显如下。 Engine:
HostName:IP地址 - Port:端口号 手动安装vscode-server。 在VS Code的Terminal中执行如下命令,清空残留的vscode-server,注意替换命令中${commitID}为步骤1 获取VS Code的commitID中commitID。 rm -rf /home/ma-user/
快速入门》。 操作步骤 将本地命令复制至ECS服务器请参考如下方法: 在ECS桌面单击“复制粘贴”,使用快捷键“Ctrl+V”将命令粘贴至窗口中并单击“发送”,将复制的命令发送至命令行窗口,如下图所示。 图3 复制粘贴按钮 图4 粘贴并发送安装命令 登录弹性云服务器。根据需要选择
已经上传benchmark验证脚本到推理容器中。如果在Step3 制作推理镜像步骤中已经上传过AscendCloud-LLM-x.x.x.zip并解压,无需重复执行。 执行如下命令进入容器。 kubectl exec -it {pod_name} bash ${pod_name}:pod名,例如图1${pod_nam
导致驱动升级、故障检测、指标采集、节点运维功能异常。 高 联系华为云技术支持重装os-node-agent。 升级、回退、卸载rdma-sriov-dev-plugin。 可能影响容器内使用RDMA网卡。 高 联系华为云技术支持重装rdma-sriov-dev-plugin。 父主题:
检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl
name判断的哪个节点是worker。下发的训练作业是一个volcano job,里边会有两个task:一个是ps、一个是worker。两个task的启动命令不同,会自动生成超参--task_name,ps的--task_name=ps,worker的 --task_name=worker。 父主题:
CLI安装包。 单击链接,下载AI Gallery CLI校验文件。 将AI Gallery CLI安装包及对应的校验文件放在同一目录下,执行如下命令使用OpenSSL工具进行校验工具包。 openssl cms -verify -binary -in gallery_cli-*-py3-none-any
检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl