检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
] } 根据响应可以了解数据集的样本数量,以及每个样本的详细信息,其中“sample_count”为“2”表示该数据集共有2个样本,记录“sample_id”(样本ID)用于后续人工标注。 调用批量更新样本标签接口根据数据集ID和样本ID给样本添加标签进行人工标注。 请求消息体:
m-dd等)的数据。确保指定标签列的取值至少有两个且无数据缺失,除标签列外数据集中至少还应包含两个有效特征列(列的取值至少有两个且数据缺失比例低于10%)。训练数据的csv文件不能包含表头,否则会导致训练失败。当前由于特征筛选算法限制,标签列建议放在数据集最后一列,否则可能导致训练失败。
owner验收不通过的样本数目。 sampled_sample_count Integer 待owner验收且被抽样的样本数目。 total_sample_count Integer 样本总数量。 unannotated_sample_count Integer 未标注样本数。 uncheck_sample_count
new_source String 处理后样本的地址。 origin_source String 样本的原地址。 result_description Array of objects 样本的处理描述。 result_property Integer 样本的处理状态。可选值如下: -1:全部
要求。 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。 用于训练的文本,至少有2种以上的分类,每种分类样本数据数不少20行。 创建数据集 数据准备完成后,需要创建相应项目支持的类型的数据集,具体操作请参考创建ModelArts数据集。 父主题:
“分组数”:填写2~200之间的整数,指将图片分为多少组。 “结果处理方式”:“更新属性到当前样本中”,或者“保存到对象存储服务(OBS)”。 “属性名称”:当选择“更新属性到当前样本中”时,需输入一个属性名称。 “结果存储目录”:当选择“保存到对象存储服务(OBS)”时,需指定一个用于存储的OBS路径。
Query参数 参数 是否必选 参数类型 描述 delete_source 否 Boolean 是否删除样本源文件。可选值如下: true:删除样本源文件 false:不删除样本源文件(默认值) label_type 否 Integer 标签类型。可选值如下: 0:图像分类 1:物体检测
删除数据集标签 dataset deleteLabel 删除数据集标签和对应的样本 dataset deleteLabelWithSamples 添加样本 dataset uploadSamples 删除样本 dataset deleteSamples 停止自动标注任务 dataset
总文件大小(字节)。 total_sample_count Long 样本总数量。 total_sub_sample_count Long 从父样本生成的子样本总数。 unconfirmed_sample_count Long 待确认样本数量。 update_ms Long 任务更新时间。 表3
描述 add_sample_count Long 新增样本数量。 create_time Long 任务创建时间。 dataset_id String 数据集ID。 deleted_sample_count Long 已删除样本数量。 duration_time Long 任务运行时间。
String 语言。可选值如下: zh-cn:中文 en-us:英文(默认值) sample_state 否 String 查询指定样本状态下的统计信息。可选样本状态如下: __ALL__:已标注 __NONE__:未标注 __UNCHECK__:待验收 __ACCEPTED__:验收通过
总文件大小(字节)。 total_sample_count Long 样本总数量。 total_sub_sample_count Long 从父样本生成的子样本总数。 unconfirmed_sample_count Long 待确认样本数量。 update_ms Long 任务更新时间。 表5
团队标注任务ID。 表2 Query参数 参数 是否必选 参数类型 描述 sample_state 否 String 查询指定样本状态下的统计信息。可选样本状态如下: __ALL__:已标注 __NONE__:未标注 __UNCHECK__:待验收 __ACCEPTED__:验收通过
提供图像、文本、音频、视频等多种格式数据的预览,帮助用户识别数据质量。 提供对数据进行多维筛选的能力,用户可以根据样本属性、标注信息等进行样本筛选。 提供12+标注工具,方便用户进行精细化、场景化和专业化的数据标注。 提供基于样本和标注结果进行特征分析,帮助用户整体了解数据的质量。 提升用户数据准备的效率。 提
删除数据集标签 dataset deleteLabel 删除数据集标签和对应的样本 dataset deleteLabelWithSamples 添加样本 dataset uploadSamples 删除样本 dataset deleteSamples 停止自动标注任务 dataset
Parallel)、TP(Tensor Parallel)、PP(Pipeline Parallel)。 DP:数据并行(Data Parallelism)是大规模深度学习训练中常用的并行模式,它会在每个进程(设备)或模型并行组中维护完整的模型和参数,但在每个进程上或模型并行组中处理不同的数据。因此,数据并行非常适合大数据量的训练任务。
不导入包含指定标签的样本。 否 Label的列表 import_annotated 用于导入智能标注结果的任务,是否导入原数据集中已标注的样本到待确认,默认值为"false"即不导入原数据集中已标注的样本到待确认。可选值如下: true:导入原数据集中已标注的样本到待确认 fals
数据管理 数据集管理 数据集版本管理 样本管理 导入任务管理 导出任务管理 Manifest管理 标注任务管理
指定梯度累积的步数,这可以增加批次大小而不增加内存消耗。可根据自己要求适配 num_train_epochs 5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配 cutoff_len 4096 文本处理时的最大长度,此处为4096,用户可根据自己要求适配。 dataset
et_name/folder_name n_clusters 否 auto 数据样本的种类数,默认值auto。您可以输入小于样本总数的整数或auto。auto表示使用正样本目录的图片个数作为数据样本的种类数。 simlarity_threshold 否 0.9 相似度阈值。两张图