检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
合成文本类数据集 当前,数据合成功能支持合成单轮问答、单轮问答(人设)类型的数据。 创建文本类数据集合成任务 合成文本类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。
2024年12月发布的版本,支持全量微调、在线推理。 物体检测-N模型为中参数量模型,在保证计算效率的同时,具备较强的特征识别能力,提供高效的性能表现。 父主题: 训练CV大模型
加工文本类数据集 清洗文本类数据集 合成文本类数据集 标注文本类数据集 父主题: 加工数据集
管理加工后的数据集 完成数据清洗、数据合成、或数据标注任务的数据集,在对应任务列表执行“生成”操作,将生成“加工数据集”被平台统一管理,并用于后续的发布任务。
数据工程工具链作为盘古大模型服务的重要组成部分,具备数据获取、清洗、数据合成、数据标注、数据评估、数据配比、数据流通和管理等功能。 该工具链能够高效收集和处理各种格式的数据,满足不同训练和评测任务的需求。
清洗文本类数据集 合成文本类数据集 利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集,增强训练模型的多样性和泛化能力。 合成文本类数据集 标注文本类数据集 为无标签数据集添加准确的标签,确保模型训练所需的高质量数据。
表1 支持数据加工操作的数据集类型 数据类型 数据清洗 数据合成 数据标注 文本类 √ √ √ 图片类 √ - √ 视频类 √ - √ 气象类 √ - - 父主题: 加工数据集
不同模型在预训练、微调、模型评测、模型压缩、在线推理和能力调测等方面的支持程度各不相同,开发者应根据自身需求选择合适的模型。
合成数据集 利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集,增强训练模型的多样性和泛化能力。 标注数据集 为无标签数据集添加准确的标签,确保模型训练所需的高质量数据。
Pangu-AI4S-Ocean_Ecology_24h-20241130 用于海洋生态要素预测 2024年11月发布的版本,支持在线推理、能力调测特性,可支持1个实例部署推理。
不同模型在预训练、微调、模型评测、模型压缩、在线推理和能力调测等方面的支持程度各不相同,开发者应根据自身需求选择合适的模型。
不同模型在预训练、微调、模型压缩、在线推理和能力调测等方面的支持程度各不相同,开发者应根据自身需求选择合适的模型。
数据合成:数据合成利用预置或自定义的数据指令对原始数据集进行处理,并根据设定的轮数生成新的数据。 数据标注:数据标注旨在为无标签的数据集添加准确的标签,标注数据的质量直接影响模型的训练效果和精度。针对不同数据集平台支持人工标注与AI预标注两种形式。
在完成数据清洗后,如果无需使用数据合成与数据标注功能,可直接在“数据清洗”页面单击操作列“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 父主题: 加工文本类数据集
数据合成:平台支持利用预置或自定义的数据指令对预训练文本、单轮问答、单轮问答(人设))数据集类型进行处理,并根据设定的轮数生成新数据。通过数据合成技术,可以生成大量高质量的训练数据,这些数据可以用于大模型的预训练,增强模型的泛化能力和性能。
在“数据血缘”页签查看该数据集所经历的操作,如导入、合成等操作。 在“操作记录”页签可以查看数据集所经历的操作及状态等信息。 单击操作列的“删除”,可删除不需要的数据集。 如果需要恢复删除的数据集,可单击右上角“显示已删除数据”,被删除的数据集将在列表显示,可将数据集恢复。
集合成员数 用于选择生成预报的不同初始场的数量,取值为2~10。 扰动类型 用于选择生成集合预报初始场的扰动类型,包括perlin加噪和CNOP加噪两种方式。 Peilin噪音通过对输入数据(比如空间坐标)进行随机扰动,让模拟出的天气接近真实世界中的变化。
合成数据集 利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集,增强训练模型的多样性和泛化能力。 标注数据集 为无标签数据集添加准确的标签,确保模型训练所需的高质量数据。
num_ensembles Long 集合成员数量。 ensemble_forecast_features String 集合预报的输出要素,例如“Surface:U;1000:T;800:?abc”。
数据工程工具链作为盘古大模型服务的重要组成部分,具备数据获取、清洗、数据合成、数据标注、数据评估、数据配比、数据流通和管理等功能。 该工具链能够高效收集和处理各种格式的数据,满足不同训练和评测任务的需求。