检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
doc_ids # for now, only input_ids are saved sample[key] = list(map(lambda x: x['input_ids'], sample[key])) return sample 支持的是预训练数据风格,会根据参数args
task_statuses Array of TaskStatuses objects 训练在子任务状态信息。 running_records Array of RunningRecord objects 训练作业运行及故障恢复记录。 表8 TaskStatuses 参数 参数类型
控制采样的随机性的浮点数。较低的值使模型更加确定性,较高的值使模型更加随机。0表示贪婪采样。 stop 否 None None/Str/List 用于停止生成的字符串列表。返回的输出将不包含停止字符串。 例如:["你","好"],生成文本时遇到"你"或者"好"将停止文本生成。 stream
至OBS桶中。且权重文件必须满足约束限制。 权重文件指的是模型的参数集合。 说明: 百川和Llama系列模型只支持自定义权重。 自定义权重存储路径 当“权重设置与词表”选择“自定义权重”时,需要选择存放模型权重文件的OBS路径,必须选择到模型文件夹。 权重校验 当“权重设置与词表
"state": "", "size": 4790, "tags": null, "attr_list": null, "version_num": 0, "update_time": 0 },
表25 remote_constraint 参数 是否必选 参数类型 描述 data_type 否 String 数据输入类型,包括数据存储位置、数据集两种方式。 attributes 否 String 数据输入为数据集时的相关属性。枚举值: data_format 数据格式;
控制采样的随机性的浮点数。较低的值使模型更加确定性,较高的值使模型更加随机。0表示贪婪采样。 stop 否 None None/Str/List 用于停止生成的字符串列表。返回的输出将不包含停止字符串。 例如:["你","好"],生成文本时遇到"你"或者"好"将停止文本生成。 stream
data/”。 表20 remote_constraint 参数 参数类型 描述 data_type String 数据输入类型,包括数据存储位置、数据集两种方式。 attributes String 数据输入为数据集时的相关属性。 枚举值: data_format:数据格式。
训练过程中保存Checkpoint的个数。最小值为1,最大值为“迭代步数/Iterations”的参数值,不超过10。Checkpoint会自动存储到“调优后模型权重保存路径”的OBS路径下。 1 资源设置 资源池类型 资源池分为公共资源池与专属资源池。 公共资源池供所有租户共享使用。
训练过程中保存Checkpoint的个数。最小值为1,最大值为“迭代步数/Iterations”的参数值,不超过10。Checkpoint会自动存储到“调优后模型权重保存路径”的OBS路径下。 资源设置 资源池类型 资源池分为公共资源池与专属资源池。 公共资源池供所有租户共享使用。 专属资源池需单独创建,不与其他租户共享。
data/”。 表20 remote_constraint 参数 参数类型 描述 data_type String 数据输入类型,包括数据存储位置、数据集两种方式。 attributes String 数据输入为数据集时的相关属性。 枚举值: data_format:数据格式。
data_type 否 Integer 数据类型。可选值如下: 0:OBS桶(默认值) 1:GaussDB(DWS)服务 2:DLI服务 3:RDS服务 4:MRS服务 5:AI Gallery 6:推理服务 schema_maps 否 Array of SchemaMap objects
数据集的分享和下载 AI Gallery的资产集市提供了数据集的分享和下载。订阅者可在AI Gallery搜索并下载满足业务需要的数据集,存储至当前帐号的OBS桶或ModelArts的数据集列表。分享者可将已处理过的数据集发布至AI Gallery。 下载数据集 AI Gallery发布数据集
会舍弃标注框超出原始图片边界的图片。 输出目录结构如下所示。其中“Data”文件夹用于存放新生成的图片和标注信息,“manifest”文件存储文件夹中图片的结构,可直接导入到数据集中。 |----data_url |----Data |----xxx.jpg
内存算子分析 dataloader 数据加载维度(Slow Dataloader Issues)通常包含如下几类问题: 数据放在读写性能较差的存储盘上,如云上的EVS和EFS。 多卡训练时使用单进程dataloader,即num_workers参数默认为0。 存在其他多进程操作影响了数据多进程读取。
data_type Integer 数据类型。可选值如下: 0:OBS桶(默认值) 1:GaussDB(DWS)服务 2:DLI服务 3:RDS服务 4:MRS服务 5:AI Gallery 6:推理服务 schema_maps Array of SchemaMap objects
data_type Integer 数据类型。可选值如下: 0:OBS桶(默认值) 1:GaussDB(DWS)服务 2:DLI服务 3:RDS服务 4:MRS服务 5:AI Gallery 6:推理服务 schema_maps Array of SchemaMap objects