检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
名称 版本 PyTorch pytorch_2.1.0 驱动 23.0.6 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.907-xxx.zip软件包中的AscendCloud-AIGC-6.3.907-xxx.zip 说明:
镜像里面“/var/lib/cloud/instances”残留了制作镜像机器(后面称模板机)的实例ID信息,如果制作镜像不清理“/var/lib/cloud/*”就会导致用该镜像再重装模板机时,cloud-init根据残留目录(含实例ID)判断已经执行过一次,进而不会再执行user-data里面的脚本。
identity,一个是alpaca_en_demo。如选用定义数据请参考准备数据(可选) template qwen 必须修改。用于指定模板。如果设置为"qwen",则使用QWEN模板进行训练,模板选择可参照表1中的template列 max_samples 1000 用于指定训练过程中使用的最大样本数量。
训练性能测试 流程图 训练性能测试流程图如下图所示: 图1 训练性能测试流程 执行训练任务 进入test-benchmark目录执行训练命令,可以多次执行,卡数及其它配置参考NPU卡数取值表按自己实际情况决定。 单机<可选>: # 默认8卡 benchmark-cli train
测试用户权限 由于权限配置需要等待15-30分钟生效,建议在配置完成后,等待30分钟,再执行如下验证操作。 使用用户组02中任意一个子用户登录ModelArts管理控制台。在登录页面,请使用“IAM用户登录”方式进行登录。 首次登录会提示修改密码,请根据界面提示进行修改。 验证ModelArts权限。
-c45ac6b cann_8.0.rc3 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表2所示。 表2 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.911-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中
driver 23.0.6 PyTorch pytorch_2.1.0 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.911-xxx.zip软件包中的AscendCloud-AIGC-6.3.911-xxx.zip 说明:
复制tune_yaml样例模板内容覆盖demo.yaml文件内容。 DPO偏好训练,复制dpo_yaml样例模板内容覆盖demo.yaml文件内容。 PPO强化训练,先进行RM奖励训练任务后,复制ppo_yaml样例模板内容覆盖demo.yaml内容。 RM奖励训练,复制rm_yaml样例模板内容覆盖demo
复制tune_yaml样例模板内容覆盖demo.yaml文件内容。 DPO偏好训练,复制dpo_yaml样例模板内容覆盖demo.yaml文件内容。 PPO强化训练,先进行RM奖励训练任务后,复制ppo_yaml样例模板内容覆盖demo.yaml内容。 RM奖励训练,复制rm_yaml样例模板内容覆盖demo
driver 23.0.6 PyTorch pytorch_2.1.0 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.912-xxx.zip软件包中的AscendCloud-AIGC-6.3.912-xxx.zip 说明:
根据最终部署环境和开发者需求的推理速度,自动调优并生成满足要求的模型 ModelArts自动学习,为资深级用户提供模板化开发能力 提供“自动学习白盒化”能力,开放模型参数、自动生成模型,实现模板化开发,提高开发效率 采用自动深度学习技术,通过迁移学习(只通过少量数据生成高质量的模型),多维度下
Face权重时存放目录绝对或相对路径。请根据实际规划修改。 template qwen 必须修改。用于指定模板。如果设置为"qwen",则使用Qwen模板进行训练,模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096
h_npu+华为自研Ascend Snt9B硬件,完成SDXL LoRA训练。 获取软件和镜像 表1 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.908软件包中的AscendCloud-AIGC-6.3.908-xxx.zip 文件名中的xx
Server资源配置 Lite Server资源配置流程 配置Lite Server网络 配置Lite Server存储 配置Lite Server软件环境
指令监督微调,复制tune_yaml样例模板内容覆盖demo.yaml文件内容。 DPO偏好训练,复制dpo_yaml样例模板内容覆盖demo.yaml文件内容。 PPO强化训练,先进行RM奖励训练任务后,复制ppo_yaml样例模板内容覆盖demo.yaml内容。 RM奖励训练,复制rm_yaml样例模板内容覆盖demo
json配置文件所属的绝对路径;如使用自定义数据集,yaml配置文件需添加此参数。 template qwen 必须修改。用于指定模板。如果设置为"qwen",则使用QWEN模板进行训练,模板选择可参照表1中的template列 max_samples 50000 用于指定训练过程中使用的最大样本数量
json配置文件所属的绝对路径;如使用自定义数据集,yaml配置文件需添加此参数。 template qwen 必须修改。用于指定模板。如果设置为"qwen",则使用QWEN模板进行训练,模板选择可参照表1中的template列 max_samples 50000 用于指定训练过程中使用的最大样本数量
Ascend相关问题 Cann软件与Ascend驱动版本不匹配 训练作业的日志出现detect failed(昇腾预检失败) 父主题: 训练作业
ook,使用新建的Notebook时,注意减少软件包的安装或文件的下载等操作,也可以减少容器大小; 减少镜像文件的大小 如果无法确认哪些包或文件可以不安装,那么可以选择一个较小的镜像来重建Notebook,然后在其中再安装需要的软件或文件。目前公共镜像中占用空间最小的是mindspore1
Lite Cluster使用前必读 Lite Cluster使用流程 Lite Cluster高危操作一览表 不同机型的对应的软件配套版本