检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
标注图片类数据集 创建图片类数据集标注任务 标注图片类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建图片类数据集标注任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程
加工图片类数据集 清洗图片类数据集 标注图片类数据集 父主题: 加工数据集
配比图片类数据集 数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通图片类数据集。 创建图片类数据集配比任务 创建图片类数据集配比任务步骤如下: 登录ModelArts St
其中,before文件夹:包含变化前的图片,每幅图片需与变化后的图片同名、同尺寸。 after文件夹:包含变化后的图片,每幅图片需与变化前的图片同名、同尺寸。 label文件夹:包含与变化前和变化后图片同名、同尺寸的PNG文件。每个像素值代表该位置对应的类别信息,类别应是连续的且从0开始。 视频分类 图片 导入
清洗图片类数据集 清洗图片类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建图片类数据集清洗任务 创建图片类数据集清洗任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程
流通图片类数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。 单个图片类数据集支持发布的格式为: 默认格式:平台默认的格式。 盘古格式:训练盘古大模型时,需要将数据集格式发布为“盘古格式”。 创建文本类数据集流通任务步骤如下: 登录ModelArts
提取图文压缩包中的JSON文本和图片,并对图片进行结构化解析(BASE64编码)。 数据过滤 图片元数据过滤 基于图片存储大小、宽高比属性进行图片/图文数据清洗。 图文文本长度过滤 过滤文本长度不在“文本长度范围”内的图文对。一个中文汉字或一个英文字母,文本长度均计数为1。 图文文本语言过滤
评估标准创建完成后可以在“人工评估标准”页面查看创建的评估标准,并支持编辑与删除操作。 创建图片类数据集评估任务 平台仅支持对“加工数据集”执行评估操作。 创建图片类数据集评估任务前,请参考加工图片类数据集,生成一个“加工数据集”。 创建图片类数据集评估任务步骤如下: 登录ModelArts
发布图片类数据集 评估图片类数据集 配比图片类数据集 流通图片类数据集 父主题: 发布数据集
表1 文本类清洗算子能力清单 算子分类 算子名称 算子描述 数据提取 WORD内容提取 从Word文档中提取文字,并保留原文档的目录、标题和正文等结构,不保留图片、表格、公式、页眉、页脚。 TXT内容提取 从TXT文件中提取所有文本内容。 CSV内容提取 从CSV文件中读取所
Logo识别 识别视频中是否包含Logo。 视频黑边识别 识别视频中是否包含黑边。 密集文字识别 识别视频中是否包含密集文字,达到密集文字面积占比的视频则为含密集文字视频,一般裁剪面积占比≥7%为密集文字视频。 父主题: 数据集清洗算子介绍
务右侧“撰写”。 图1 提示词工程 在提示词撰写区域输入提示词文本,可以插入若干个变量,变量需要使用占位符{{ }}标识。 图2 撰写提示词 撰写完成后,单击“确定”,平台会自动识别插入的变量。提示词中识别的变量将展示在变量定义区域。 变量名称可以进行修改,如添加备注信息以便更好理解变量的作用。
其他类数据集格式要求 除文本、图片、视频、气象、预测类数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作,不支持数据加工操作。 其他类数据集要求单个文件大小不超过50GB,单个压缩包大小不超过50GB,文件数量最多1000个。
精度。 标注图片类数据集、标注视频类数据集 发布图片、视频类数据集 评估图片、视频类数据集 平台预置了多种数据类型的基础评估标准,包括NLP、视频和图片数据,用户可根据需求选择预置标准或自定义评估标准,从而精确优化数据质量,确保数据满足高标准,提升模型性能。 评估图片类数据集、评估视频类数据集
ent开发平台。 单击左侧导航栏“工作台”,在“知识库”页签,单击右上角“创建知识库”。 在“创建知识库”页面,填写知识库名称与描述,单击图片可上传知识库图标,单击“下一步”。 在“文件类型”页面,选择文件类型。 导入文本文档数据。支持上传txt、doc、docx、pdf、ppt
Agent开发平台。 单击左侧导航栏“工作台”,在“插件”页签,单击右上角“创建插件”。 在“创建插件”页面,填写插件名称与插件描述,单击图片可上传插件图标,单击“下一步”。 在“配置信息”页面,参照表1完成信息配置。 表1 插件信息配置说明 参数名称 参数说明 插件URL 插件服务的请求URL地址。
人标注、审核以及标注任务移交。针对文本和图片类数据集,平台还提供AI预标注功能。利用盘古大模型的智能能力,显著降低人工标注的工作量和成本,从而显著地提高标注效率。 数据评估:平台支持对处理后的文本、图片、视频等多种格式数据进行质量评估,并预置了基础的评估标准,用户可以直接使用预置
jsonl、csv 图片类 仅图片 jpg、jpeg、png、bmp、tar包 图片+Caption 图片格式支持:jpg、jpeg、png、bmp,所有图片需保存为tar包。 Caption格式支持:jsonl 图片+QA对 图片格式支持:jpg、jpeg、png、bmp,所有图片需保存为tar包。
目前,仅文本类和图片类数据集支持发布为“盘古格式”。 通过这些功能,平台能够帮助用户科学管理和发布数据集,确保数据集质量符合大模型训练的需求,从而提高后续模型训练的效果。 数据发布意义 数据发布不仅仅是将数据转换为不同格式,还包括根据任务需求评估数据集效果并调整数据比例,确保数
科学计算大模型能力调测参数说明(海洋类预测) 参数 说明 场景 支持选择全球海洋要素、区域海洋要素、全球海洋生态、全球海浪高度。 全球海洋要素:实现预测全球范围内海面高度, 温度、盐度、海流速度纬向分量和海流速度经向分量变量。 区域海洋要素:实现预测特定区域范围内海面高度, 温度、盐度、海流速度纬向分量和海流速度经向分量变量。