检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
“train_params.json” 必选文件,训练参数文件,定义了模型训练的必要参数,例如训练方式、超参信息。该参数会显示在微调工作流的“作业设置”页面的算法配置和超参数设置里面。代码示例请参见train_params.json示例。 “dataset_readme.md” 必选文件,数据集要求
应包含两个有效特征列(列的取值至少有两个且数据缺失比例低于10%)。训练数据的csv文件不能包含表头,否则会导致训练失败。当前由于特征筛选算法限制,标签列建议放在数据集最后一列,否则可能导致训练失败。 由于ModelArts会自动对数据进行一些过滤,过滤后再启动训练作业。当预处理
视频标注途径,用于区分标签是人工标注的还是自动标注的。可选值如下: human:人工标注 auto:自动标注 id 否 String 标签ID。 name 否 String 标签名。 property 否 SampleLabelProperty object 样本标签的属性键值对,如物体形状、形状特征等。 score
参数类型 描述 model_algorithm 是 String 模型算法,表示该模型的用途,由模型开发者填写,以便使用者理解该模型的用途。只能以英文字母开头,不能包含中文以及&!'\"<>=,不超过36个字符。常见的模型算法有image_classification(图像分类)、obj
learning_rate 2.0e-5 指定学习率 disable_gradient_checkpointing true 关闭重计算,用于禁用梯度检查点,默认开启梯度检查点;在深度学习模型训练中用于保存模型的状态,以便在需要时恢复。这种技术可以帮助减少内存使用,特别是在训练大型模
String 否 自定义镜像运行的UID,默认值1000。 --working-dir String 否 运行算法时所在的工作目录。 --local-code-dir String 否 算法的代码目录下载到训练容器内的本地路径。 --user-command String 否 自定义镜像执行命令。需为/home下的目录。
进入容器。默认使用ma-user用户,后续所有操作步骤都在ma-user用户下执行。 docker exec -it sdxl-train bash Step5 修改算法脚本 进入容器后,修改启动脚本文件。 vi /home/ma-user/sdxl-train/user-job-dir/code/diff
准备镜像 准备大模型推理适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2
<镜像名称>:<tag>:定义镜像名称。示例:sdxl-train:0.0.1。 Step7 创建训练作业 创建训练作业,填下如下参数。 创建方式:选择自定义算法,启动方式选择自定义,然后选择上传到SWR的自定义镜像。 代码目录:选择上传到OBS的代码文件夹,例如/sdxl-train/code。若
#HEADER_testheader matches 'mock.*' 示例三: 当预测的http请求的header中存在uid且其哈希值符合指定的分桶算法时,可匹配到这条规则。 #HEADER_uid.hashCode() % 100 < 10 图2 通过Header访问不同版本 如果在线服
3:失败 4:停止 task_id String 数据处理任务ID。 template TemplateParam object 数据处理模板,如算法ID和参数等。 version_count Integer 数据处理任务的版本数量。 version_id String 数据处理任务对应的数据集版本ID。
准备镜像 准备大模型推理适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2
准备镜像 准备大模型推理适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2
准备镜像 准备大模型推理适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2
<镜像名称>:<tag>:定义镜像名称。示例:sdxl-train:0.0.1。 Step7 创建训练作业 创建训练作业,填下如下参数。 创建方式:选择自定义算法,启动方式选择自定义,然后选择上传到SWR的自定义镜像。 代码目录:选择上传到OBS的代码文件夹,例如/sdxl-train/code。若
NCCL_IB_TIMEOUT=22:把超时时间设置长一点,正常情况下网络不稳定会有5秒钟左右的间断,超过5秒就返回timeout了,改成22预计有二十秒左右,算法为4.096 µs * 2 ^ timeout。 常见案例:训练中途卡死 问题现象1 检测每个节点日志是否有报错信息,某个节点报错但作业未退出导致整个训练作业卡死。
准备镜像 准备大模型推理适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2
准备镜像 准备大模型推理适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2
CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导(6.3.911) 本文档主要介绍如何在ModelArts Lite的DevServer环境中,使用NPU卡对CogVideoX模型基于sat框架进行全量微调。本文档中提供的脚本,是基于原生CogV
gine_id无需填写。请从查询作业引擎规格接口获取引擎规格ID。 model_id 是 Long 训练作业的内置模型ID。请通过查询预置算法接口获取model_id。填入model_id后app_url/boot_file_url和engine_id无需填写。 train_url