检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
参数和tokenizer文件,具体请参见训练tokenizer文件说明。 Step4 其他配置 选择用户自己的专属资源池,以及规格与节点数。防止训练过程中出现内存溢出的情况,用户可参考表1进行配置。 图2 选择资源池规格 作业日志选择OBS中的路径,训练作业的日志信息则保存该路径下。
train/processed_for_input/llama2-13b/data/finetune/ 用户自定义执行数据处理脚本修改参数说明 同样以 llama2 为例,用户在Notebook中直接编辑scripts/llama2/1_preprocess_data.sh脚本,
dataset_id 是 String 数据集ID label_name 是 String 标签名称。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 delete_source 否 Boolean
es/{plugintemplate_name} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 plugintemplate_name 是 String 插件模板的名称。可选值如下: gp
表1 路径参数 参数 是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workforce_task_id 是 String 标注任务ID。 请求参数 表2 请求Body参数
id}/workers/batch-delete 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workforce_id 是 String 标注团队ID。 请求参数 表2 请求Body参数
ata.json.json)按照下面的数据存放目录要求放置。 指令微调样例数据集alpaca_gpt4_data.json.json的下载链接:https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpaca
现_filter方法,然后在数据预处理的参数里指定自己的handler名称即可 用户自定义执行数据处理脚本修改参数说明 如果用户要自定义数据处理脚本并且单独执行,同样以llama2为例。 方法一:用户可打开scripts/llama2/1_preprocess_data.sh脚本
现_filter方法,然后在数据预处理的参数里指定自己的handler名称即可 用户自定义执行数据处理脚本修改参数说明 如果用户要自定义数据处理脚本并且单独执行,同样以llama2为例。 方法一:用户可打开scripts/llama2/1_preprocess_data.sh脚本
分组条件键对应值。 表3 get_job_list返回参数说明 参数 参数类型 描述 total Integer 查询到当前用户名下的所有作业总数。 count Integer 查询到当前用户名下的所有符合查询条件的作业总数。 limit Integer 查询作业的限制量。最小为1,最大为50。 offset
search-trials/{trial_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。
动修改tokenizer文件,具体请参见训练tokenizer文件说明。 Step4 其他配置 选择用户自己的专属资源池,以及规格与节点数。防止训练过程中出现内存溢出的情况,用户可参考表1进行配置。 图3 选择资源池规格 作业日志选择OBS中的路径,训练作业的日志信息则保存该路径下。
ls/{pool_name}/nodepools 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。 请求参数 表2 请求Body参数 参数 是否必选
指定算法所属的ai项目,默认值为"default-ai-project"。ai项目已下线,无需关注。 user_name String 用户名称。 domain_id String 用户的domainID。 source String 算法来源类型。 api_version String 算法api版本,标识新旧版。
继承想要的通用的父类,实现_filter方法,然后在数据预处理的参数里指定自己的handler名称即可 用户自定义执行数据处理脚本修改参数说明 同样以 llama2 为例,用户可直接编辑 scripts/llama2/1_preprocess_data.sh 脚本,自定义环境变量
继承想要的通用的父类,实现_filter方法,然后在数据预处理的参数里指定自己的handler名称即可 用户自定义执行数据处理脚本修改参数说明 同样以 llama2 为例,用户可直接编辑 scripts/llama2/1_preprocess_data.sh 脚本,自定义环境变量
odepools/{nodepool_name} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。 nodepool_name 是 String
学习”和“预标注”两类。 “主动学习”表示系统将自动使用半监督学习、难例筛选等多种手段进行智能标注,降低人工标注量,帮助用户找到难例。 “预标注”表示选择用户模型管理里面的模型进行智能标注。 “自动分组”是指先使用聚类算法对未标注图片进行聚类,再根据聚类结果进行处理,可以分组打标或者清洗图片。
rkflow_id}/subscriptions 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 请求参数 表2 请求Body参数 参数
表1 路径参数 参数 是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 delete_source