检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Finetune训练 本章节介绍SDXL&SD 1.5模型的Finetune训练过程。Finetune是指在已经训练好的模型基础上,使用新的数据集进行微调(fine-tuning)以优化模型性能。 训练前需要修改数据集路径、模型路径。数据集路径格式为/datasets/pokemon-dataset/image_0
Gallery,单击右上角“我的Gallery”进入我的Gallery页面。 单击左上方“创建资产”,选择“镜像”。 在“创建镜像”弹窗中配置参数,单击“创建”。 表1 创建镜像 参数名称 说明 英文名称 必填项,镜像的英文名称。 如果没有填写“中文名称”,则资产发布后,在镜像页签上会显示该“英文名称”。
ai5KXWC3gthUfz", description="dataset version from label task") 参数说明 表1 请求参数 参数 是否必选 参数类型 描述 name 否 String 版本名称,必须是中文、字母、数字、下划线或中划线组成的合法字符串,长度为1-32位。
copy(src_path='obs://bucket-name/dir1', dst_path='/home/ma-user', keep_last_dir=True) 表1 请求参数说明 参数 是否必选 参数类型 描述 session 是 Object 会话对象。 src_path 是 String 源文件或
URI GET /v2/{project_id}/workforces/{workforce_id}/workers/{worker_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 worker_id
celerate提供了一系列的优化技术,如模型切分、梯度累积等,可以帮助用户更好地利用多个节点进行训练。 各个模型选用加速框架 表1 模型加速框架建议表 序号 模型参数量 文本序列长度 优化工具(Deepspeed&Accelerator) 0 小于4B cutoff_len=4096
报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决? 问题现象 或 VS Code连接Notebook一直提示选择证书
查看OBS桶是否加密 检查OBS文件是否为加密文件 进入OBS管理控制台,单击桶名称进入概览页。 单击左侧菜单栏对象,进入对象列表。单击存放文件的对象名称,并找到具体的文件,可在文件列表的“加密状态”列查看文件是否加密。文件加密无法取消,请先解除桶加密,重新上传图片或文件。 检查OBS桶的ACLs设置
gs.yaml文件中默认配置,权重使用表1 模型权重中指定的Huggingface地址,数据指定data.tgz里面提供的gsm8k和mmlu、ceval数据。 查看精度结果 任务完成之后会在test-benchmark目录下生成excel表格: 精度结果 LLaMAFactor
实际存储空间足够,却依旧报错“No Space left on device”。 同一目录下创建较多文件,为了加快文件检索速度,内核会创建一个索引表,短时间内创建较多文件时,会导致索引表达到上限,进而报错。 触发条件和下面的因素有关: 文件名越长,文件数量的上限越小 blocksize越小,文件数量的上限越小。(
TP 8 表示张量并行。对应训练参数 tensor-model-parallel-size 。 PP 4 表示流水线并行。一般此值与训练节点数相等,与权重转换时设置的值相等。对应训练参数 pipeline-model-parallel-size 。 CP 1 表示contex
表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 8 表示流水线并行。一般此值与训练节点数相等,与权重转换时设置的值相等。 CP 1 表示context并行,默认为1。应用于训练长序列文本的模型。若训练时SEQ_LEN超过32768长度,则推荐增加CP值(CP
数据去冗余算子(RRD算子) 可以依据用户设置的比例去除差异最大的数据。 图5 RRD效果图 表2 高级参数说明 参数名 是否必选 默认值 参数说明 sample_ratio 否 0.9 数据留下的百分比。取值范围为0~1。例如0.9表示保留百分之90的原数据。 n_clusters auto auto
dataset_id) dataset.delete_version(version_id="cSPuXPgnYp7ObRs6LaR") 参数说明 表1 请求参数 参数 是否必选 参数类型 描述 version_id 是 String 数据集版本ID。 父主题: 数据集版本管理
ModelArts使用不受影响。专属资源池到期后的状态说明,请参见到期后影响。 续费相关的功能 包年/包月专属资源池续费相关的功能如表1所示。 表1 续费相关的功能 功能 说明 手动续费 包年/包月专属资源池从购买到被自动删除之前,您可以随时在ModelArts控制台为专属资源池续费,以延长专属资源池的使用时间。
面中可查看团队标注作业的标注详情。添加、修改或删除标注成员。 登录“数据准备>数据标注”,在“我创建的”页签下可查看所有的标注作业列表。 在作业列表的“名称”列,根据标注作业名称找到对应的团队标注作业。(团队标注作业的名称后带有标识。) 单击作业操作列的“更多>标注人员管理”。或
--cosineDistanceThreshold=0.99 其中,--accuracyThreshold=5表示平均绝对误差的容忍度最大为5%,--cosineDistanceThreshold =0.99表示余弦相似度至少为99%,--inputShapes可将模型放入到netron官网中查看。
运行成功 训练完成后,您可以单击物体检测节点上方的按钮,查看相关指标信息,如“准确率”、“评估结果”等。评估结果参数说明请参见表1。 图3 模型评估报告 表1 评估结果参数说明 参数 说明 recall:召回率 被用户标注为某个分类的所有样本中,模型正确预测为该分类的样本比率,反映模型对正样本的识别能力。
dataset_id) dataset.update_dataset(dataset_name = "new-dataset-name") 参数说明 表1 请求参数 参数 是否必选 参数类型 描述 dataset_name 否 String 新的数据集名称。 description 否 String
Function),下一个搜索点为采集函数的极大值点。相比网格搜索,贝叶斯优化会利用之前的评估结果,从而降低迭代次数、缩短搜索时间;缺点是不容易找到全局最优解。 表1 贝叶斯优化的参数说明 参数 说明 取值参考 num_samples 搜索尝试的超参组数 int,一般在10-20之间,值越大,搜索时间越长,效果越好