检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
/home/ma-user/ws/llm_train/saved_dir_for_output/ 该路径下统一保存生成的 CKPT、PLOG、LOG 文件。示例中,默认统一保存在“saved_dir_for_output”文件夹下。若用户需要修改,可添加并自定义该变量。 CKPT_SAVE_PATH
示。 图3 单击新增访问密钥 填写该密钥的描述说明,单击“确定”。根据提示单击“立即下载”,下载密钥。 图4 新增访问密钥 密钥文件会直接保存到浏览器默认的下载文件夹中。打开名称为“credentials.csv”的文件,即可查看访问密钥(Access Key Id和Secret
NPU日志收集上传 场景描述 当NPU出现故障,您可通过本方案收集NPU的日志信息。本方案中生成的日志会保存在节点上,并自动上传至华为云技术支持提供的OBS桶中,日志仅用于问题定位分析,因此需要您提供AK/SK给华为云技术支持,用于授权认证。 约束限制 当前仅支持在贵阳一、乌兰察布一使用该功能。
diffusers_sdxl_finetune_train.sh 训练执行脚本中配置了保存checkpoint的频率,每500steps保存一次,如果磁盘空间较小,这个值可以改大到5000,避免磁盘空间写满,导致训练失败终止。 checkpoint保存频率的修改命令如下: --checkpointing_steps=5000
/home/ma-user/ws/llm_train/saved_dir_for_output/ 该路径下统一保存生成的 CKPT、PLOG、LOG 文件。示例中,默认统一保存在“saved_dir_for_output”文件夹下。如果用户需要修改,可添加并自定义该变量。 CKPT_SAVE_PATH
/home/ma-user/ws/llm_train/saved_dir_for_output/ 该路径下统一保存生成的 CKPT、PLOG、LOG 文件。示例中,默认统一保存在“saved_dir_for_output”文件夹下。如果用户需要修改,可添加并自定义该变量。 CKPT_SAVE_PATH
/home/ma-user/ws/llm_train/saved_dir_for_output/ 该路径下统一保存生成的CKPT、PLOG、LOG文件。示例中,默认统一保存在“saved_dir_for_output”文件夹下。如果用户需要修改,可添加并自定义该变量。 CKPT_SAVE_PATH
/home/ma-user/work/llm_train/saved_dir_for_output/ 该路径下统一保存生成的 CKPT、PLOG、LOG 文件。示例中,默认统一保存在“saved_dir_for_output”文件夹下。若用户需要修改,可添加并自定义该变量。 CKPT_SAVE_PATH
/home/ma-user/work/llm_train/saved_dir_for_output/ 该路径下统一保存生成的 CKPT、PLOG、LOG 文件。示例中,默认统一保存在“saved_dir_for_output”文件夹下。如果用户需要修改,可添加并自定义该变量。 CKPT_SAVE_PATH
ptq_config) 您还可以使用save_pretrain()方法在本地保存您的量化模型。如果模型是用device_map参数量化的,请确保在保存之前将整个模型移动到GPU或CPU。例如,要将模型保存在CPU上。 quantized_model.save_pretrained
/home/ma-user/ws/llm_train/saved_dir_for_output/ 该路径下统一保存生成的 CKPT、PLOG、LOG 文件。示例中,默认统一保存在“saved_dir_for_output”文件夹下。若用户需要修改,可添加并自定义该变量。 CKPT_SAVE_PATH
指定模型训练过程中,每多少步保存一次模型。保存的模型可以用于后续的训练或推理任务。 当参数值>=max_steps时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<max_steps时,生成模型会每经过save_steps次,保存一次模型版本。 模型版本保存次数=max_steps//save_steps
1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_ITERS时,生成模型会每经过SAVE_INTERVAL次,保存一次模型版本。 模型版本保存次数=TRAIN_ITERS//SAVE_INTERVAL+1
/home/ma-user/ws/llm_train/AscendFactory/saved_dir_for_output/ 该路径下统一保存生成的 CKPT、PLOG、LOG 文件。示例中,默认统一保存在“saved_dir_for_output”文件夹下。若用户需要修改,可添加并自定义该变量。 CKPT_SAVE_PATH
/home/ma-user/ws/llm_train/saved_dir_for_output/ 该路径下统一保存生成的 CKPT、PLOG、LOG 文件。示例中,默认统一保存在“saved_dir_for_output”文件夹下。若用户需要修改,可添加并自定义该变量。 CKPT_SAVE_PATH
1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_ITERS时,生成模型会每经过SAVE_INTERVAL次,保存一次模型版本。 模型版本保存次数=TRAIN_ITERS//SAVE_INTERVAL+1
1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_ITERS时,生成模型会每经过SAVE_INTERVAL次,保存一次模型版本。 模型版本保存次数=TRAIN_ITERS//SAVE_INTERVAL+1
scripts/install.sh命令提前下载完整代码包和安装依赖包,然后使用保存镜像功能。后续训练作业使用新保存的镜像,无需每次启动训练作业时再次下载代码包以及安装依赖包,可节约训练作业启动时间。 图4 安装依赖包 图5 保存镜像 图6 填写保存镜像相关参数 父主题: 准备镜像
的主副标题。 编辑完成之后单击“保存”。封面图和二级标题内容自动同步,您可以直接在资产详情页查看修改结果。 图1 修改封面图和二级标题 编辑标签 单击标签右侧的出现标签编辑框,在下拉框中勾选该资产对应的标签。 单击编辑框右侧的对勾完成编辑。 保存成功的标签信息会在资产搜索页成为过滤分类条件。
/home/ma-user/ws/llm_train/saved_dir_for_output/ 该路径下统一保存生成的 CKPT、PLOG、LOG 文件。示例中,默认统一保存在“saved_dir_for_output”文件夹下。若用户需要修改,可添加并自定义该变量。 CKPT_SAVE_PATH