检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
挂载OBS并行文件系统:在Notebook实例详情页面,选择“存储配置”页签,单击“添加数据存储”,设置挂载参数。 设置本地挂载目录,在“/data/”目录下输入一个文件夹名称,例如:demo。挂载时,后台自动会在Notebook容器“的/data/”目录下创建该文件夹,用来挂载OBS文件系统。
txt”的文件,并且在文件中指定此whl包的包名。依赖包必须为“.whl”格式的文件。 例如,“代码目录”对应的OBS路径下,包含模型文件、whl包,同时还存在“pip-requirements.txt”文件。“代码目录”的结构如下所示: |---模型启动文件所在OBS文件夹
附录:指令微调训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 将yaml文件中的per_device_train_batch_size调小,重新训练如未解决则执行下一步。 替换深度学习训练加速的工具或增加zero等级,可参考各个模型深度学习训
训练作业的代码目录。如:“/usr/app/”。应与boot_file一同出现,如果boot_file已经填入id或subscription_id+item_version_id,则无需填写此参数。 boot_file String 训练作业的代码启动文件,需要在代码目录下。如:“/usr/app/boot
创建OBS桶(可选) 创建OBS桶用于ModelArts存储数据 由于ModelArts本身没有数据存储的功能,使用Modelarts Standard进行AI开发过程中的输入数据、输出数据、中间缓存数据都可以在OBS桶中进行存储、读取。因此,建议您在使用ModelArts之前先创建一个OBS桶。
ModelArts Standard准备工作 配置ModelArts Standard访问授权 创建并管理工作空间 创建OBS桶用于ModelArts存储数据
reboot 第一条命令为安装Linux内核头文件和内核镜像,其中版本为5.4.0-144-generic。 第二条命令为重新生成GRUB引导程序的配置文件,用于在启动计算机时加载操作系统, 命令将使用新安装的内核镜像更新GRUB的配置文件,以便在下次启动时加载新的内核。 父主题: Lite
CKPT、PLOG、LOG 文件。如果用户需要修改,可添加并自定义该变量。 ASCEND_PROCESS_LOG_PATH /home/ma-user/work/AscendFactory/saved_dir_for_output/plog 保存训练过程中记录的程序堆栈信息日志 PLOG 文件。示例中
分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。 2. 忽略该报错,因为报错不影响实际报错的权重。 父主题:
rs遵循了Huggingface的“single-file policy”的设计原则,它的三个主要模块Pipeline、Schedulers和预训练模型中,Pipeline和Schedulers都完全遵循了“single-file policy”原则。该设计原则更推荐直接复制粘贴
在统一身份认证服务页面的左侧导航选择“用户组”,在用户组页面查找待授权的用户组名称,在右侧的操作列单击“授权”,勾选步骤2创建的自定义策略,单击“下一步”,选择授权范围方案,单击“确定”。 此时,该用户组下的所有用户均有权限通过Cloud Shell登录运行中的训练作业容器。 如果没有用户组,也可以创建一个新
# MindSpeed昇腾大模型加速库 |──ModelLink/ # ModelLink端到端的大语言模型方案 |——megatron/ # 注意:该文件夹从Megatron-LM中复制得到 |——
BaseAlgorithm( code_dir="fake_code_dir", # 代码目录存储的路径 boot_file="fake_boot_file", # 启动文件存储路径,需要在代码目录下 engine=wf.steps.JobEngine
对应的内容会与 input 对应的内容拼接后作为指令,即指令为 instruction\ninput。 output:生成的指令的答案。 system:系统提示词,用来为整个对话设定场景或提供指导原则。 history: 一个列表,包含之前轮次的对话记录,每一对都是用户消息和模型回复。这有助于保持对话的一致性和连贯性。
专属资源池创建训练作业 创建训练作业界面无云存储名称和挂载路径排查思路 父主题: 训练作业
Code界面,上传本地代码到云端开发环境。 单击“File > OpenFolder”,选择要打开的路径,单击“OK”。 图12 Open Folder 图13 选择文件路径 此时,会在IDE左侧出现该开发环境下的目录结构,选择想要上传的代码及其他文件,拖拽至目录对应的文件夹内即完成本地代码上传至云端。
任务时产生mc2融合算子错误。 图1 mc2融合算子错误 解决方法 修改代码文件:AscendFactory/scripts_modellink/{model_name}/3_training.sh文件,去除以下mc2融合算子--mc2 父主题: 常见错误原因和解决方法
Lite Server资源配置 Lite Server资源配置流程 配置Lite Server网络 配置Lite Server存储 配置Lite Server软件环境
Cluster资源配置 Lite Cluster资源配置流程 配置Lite Cluster网络 配置kubectl工具 配置Lite Cluster存储 (可选)配置驱动 (可选)配置镜像预热
MLLM多模态模型训练推理 Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.912) Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.912) Qwen-VL基于Lite Server适配PyTorch