检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi 支持mp4、avi视频格式上传,所有视频可以放在多个文件夹
在左侧导航栏中选择“数据工程 > 数据加工 > 加工数据集”。 单击数据集名称查看加工数据集的基本信息、数据预览、数据血缘以及操作记录。 在“基本信息”页签可查看数据集的详细信息。 在“数据预览”页签可查看加工后的数据内容。 在“数据血缘”页签查看该数据集所经历的操作,如导入、合成等操作。
文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 单个文件大小不超过50GB,文件数量最多1000个。
加工视频类数据集 清洗视频类数据集 标注视频类数据集 父主题: 加工数据集
加工气象类数据集 清洗气象类数据集 父主题: 加工数据集
气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针
发布文本类数据集 评估文本类数据集 配比文本类数据集 流通文本类数据集 父主题: 发布数据集
加工文本类数据集 清洗文本类数据集 合成文本类数据集 标注文本类数据集 父主题: 加工数据集
发布视频类数据集 评估视频类数据集 流通视频类数据集 父主题: 发布数据集
数据集清洗算子介绍 文本类清洗算子能力清单 视频类清洗算子能力清单 图片类清洗算子能力清单 气象类清洗算子能力清单 父主题: 加工数据集
Learning,简称SSL)是一种机器学习方法,它从未标记的数据中提取监督信号,属于无监督学习的一个子集。该方法通过创建“预设任务”让模型从数据中学习,从而生成有用的表示,可用于后续任务。它无需额外的人工标签数据,因为监督信号直接从数据本身派生。 有监督学习 有监督学习是机器学习任务的一种。它从有
构建的优点是数据丰富度更高,缺点是成本较高。 当您将无监督数据构建为有监督数据时,请尽可能保证数据的多样性。建议将不同文本构建为不同的场景,甚至将同一段文本构建为多个不同的场景。 不同规格的模型支持的长度不同,当您将无监督数据构建为有监督数据时,请确保数据长度符合模型长度限制。 父主题:
配比图片类数据集 数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通图片类数据集。 创建图片类数据集配比任务 创建图片类数据集配比任务步骤如下: 登录ModelArts St
在左侧导航栏中选择“数据工程 > 数据发布 > 发布数据集”。 单击数据集名称查看发布数据集的基本信息、数据预览、数据血缘以及操作记录。 在“基本信息”页签可查看数据集的详细信息。 在“数据预览”页签可查看发布后的数据内容。 在“数据血缘”页签查看该数据集所经历的操作,如导入、合成等操作。
图片类数据集格式要求 ModelArts Studio大模型开发平台支持创建图片类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 图片类数据集格式要求 文件内容 文件格式 文件要求 仅图片 tar、图片目录 图片:支持jpg、jpeg、png、bmp类型。 ta
在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“图片 > 图片+Caption”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“格式配置”选择发布格式。由于数据工程需要支持对
节至创建图片类数据集评估任务。 创建图片类数据集评估标准步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据评估”,在“人工评估标准”页签,平台预置了图片类数据集评估标准“图片数据质量标准
上传文件限xlsx格式。 数据行数不小于10行,不大于50行。 数据不允许相同表头,表头数量小于20个。 数据单条文本长度不超过1000。 创建数据集时会对相关限制条件进行校验。 数据参考格式如下: 图1 数据参考格式 图2 数据示例 创建提示词评估数据集 登录ModelArts
[0,1)。 给输入数据加噪音的概率 定义了给输入数据加噪音的概率,定义了给输入数据加噪音的概率。加噪音是一种正则化技术,它通过在输入数据中添加随机噪音来增强模型的泛化能力。取值范围:[0,1]。 给输入数据加噪音的尺度 给输入数据加噪音的尺度,定义了给输入数据加噪音的尺度。这
发布图片类数据集 评估图片类数据集 配比图片类数据集 流通图片类数据集 父主题: 发布数据集