检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本文以弹性裸金属作为开发环境。弹性裸金属支持深度自定义环境安装,可以方便地替换驱动、固件和上层开发包,具有root权限,结合配置指导、初始化工具及容器镜像可以快速搭建昇腾开发环境。 开通裸金属服务器资源请参见DevServer资源开通,在裸金属服务器上搭建迁移环境请参见裸金属服务器环境配置指导,使用ModelAr
仅支持使用Snt9b资源的同步在线服务。 只支持针对整节点资源复位,请确保部署的在线服务为8*N卡规格,请谨慎评估对部署在该节点的其他服务的影响。 开启故障自动重启 用户可以在部署在线服务任务时,勾选“高级选项”的“现在配置”,可以看到“故障自动重启”参数,打开开关即可。 图1 故障自动重启
[type=int_from_float, input_value=15099494.4, input_type=float] 将deepspeed配置文件的 stage3_prefetch_bucket_size 参数值从 auto 改成 整数15099494 父主题: 常见错误原因和解决方法
[type=int_from_float, input_value=15099494.4, input_type=float] 将deepspeed配置文件的 stage3_prefetch_bucket_size 参数值从 auto 改成 整数15099494 父主题: 常见错误原因和解决方法
npu-smi info 如图所示为8卡,pod配置成功。 图4 查看卡信息 查看卡间通信配置文件,执行以下命令。 cat /user/config/jobstart_hccl.json 多卡训练时,需要依赖“rank_table_file”做卡间通信的配置文件,该文件自动生成,pod启动之后
问并编辑以上源码文件。编辑完成后重新构建新镜像。 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
问并编辑以上源码文件。编辑完成后重新构建新镜像。 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
在“Notebook”页面,单击“创建Notebook”。 在“创建Notebook”页面,配置相关信息,单击“立即创建”,确认信息无误后,单击“提交”。 部分配置项说明如下。关于配置项的更多信息,请参见创建Notebook实例。 表1 配置项说明 配置项 说明 镜像 选择“公共镜像”,然后选择“mindspore_2
|──llama-factory.patch 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
图2 模型的自定义镜像制作场景二 场景三:预置镜像既不满足软件环境要求,同时需要放入模型包,新的镜像超过35G,在服务器(如ECS)上制作。具体案例参考在ECS中通过Dockerfile从0制作自定义镜像用于推理。 图3 模型的自定义镜像制作场景三 约束限制 自定义镜像中不能包含恶意代码。
问并编辑以上源码文件。编辑完成后重新构建新镜像。 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
问并编辑以上源码文件。编辑完成后重新构建新镜像。 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
注意:该文件夹从Megatron-LM中复制得到 |——... 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
注意:该文件夹从Megatron-LM中复制得到 |——... 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
注意:该文件夹从Megatron-LM中复制得到 |——... 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
0.rc2 PyTorch:2.1.0 基础镜像的使用 用户通过ECS获取和上传基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过使用基础镜像、ECS中构建新镜像、Notebook中构建新镜像的方式(三选一)来部署训练环境。方案的区别如下: 直接使用基础镜像方案:用户可在训练作
注意:该文件夹从Megatron-LM中复制得到 |——... 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
cfg reboot 第一条命令为安装Linux内核头文件和内核镜像,其中版本为5.4.0-144-generic。 第二条命令为重新生成GRUB引导程序的配置文件,用于在启动计算机时加载操作系统, 命令将使用新安装的内核镜像更新GRUB的配置文件,以便在下次启动时加载新的内核。
选或组合筛选。 给子账号配置查看所有Notebook实例的权限 当子账号被授予“listAllNotebooks”和“listUsers”权限时,在Notebook页面上,单击“查看所有”,可以看到IAM项目下所有子账号创建的Notebook实例 。配置该权限后,也可以在Note
当前支持“换件维修”和“重部署”两种修复方式: - 换件维修:通过更换硬件实现原地修复,修复耗时较长,对于非本地盘类故障,本地盘数据可以保留。 - 重部署:通过更换为新服务器实现修复,修复耗时较短,本地盘数据会丢失。 修复期间实例将无法工作,请确保相关实例业务已离线。如果云服务器上的业务不可停止,请勿修复,并联系技术支持进行处理。