检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何将本地的数据上传至平台 ModelArts Studio平台支持从OBS服务导入数据。您可以将本地数据上传至OBS(对象存储服务),然后通过平台提供的“数据导入”功能,将存储在OBS中的数据导入至平台进行使用。 具体操作步骤如下: 上传数据至OBS:将本地数据上传至OBS服务,请详见通过控制台快速使用OBS。
数据保护技术 盘古大模型服务通过多种数据保护手段和特性,保障存储在服务中的数据安全可靠。 表1 盘古大模型的数据保护手段和特性 数据保护手段 简要说明 传输加密(HTTPS) 盘古服务使用HTTPS传输协议保证数据传输的安全性。 基于OBS提供的数据保护 基于OBS服务对用户的数
和管理数据集的版权信息,确保数据的使用合法合规,并清晰地了解数据集的来源和相关的版权授权。通过填写这些信息,可以追溯数据的来源,明确数据使用的限制和许可,从而保护数据版权并避免版权纠纷。 单击页面右下角“立即创建”,回退至“数据导入”页面,在该页面可以查看数据集的任务状态,若状态为“运行成功”,则数据导入成功。
对数据进行预处理操作,针对不同类型的数据集,平台设计了专用的清洗算子,以确保数据符合模型训练的标准和业务需求。 数据合成:数据合成利用预置或自定义的数据指令对原始数据集进行处理,并根据设定的轮数生成新的数据。 数据标注:数据标注旨在为无标签的数据集添加准确的标签,标注数据的质量直
Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据加工 > 加工数据集”。 单击数据集名称查看加工数据集的基本信息、数据预览、数据血缘以及操作记录。 在“基本信息”页签可查看数据集的详细信息。 在“数据预览”页签可查看加工后的数据内容。 在“数据血缘
在实际应用中的可靠性和稳定性。 数据配比:平台支持对文本、图片类数据进行数据配比。用户在勾选数据集时可以勾选多条,通过调整不同来源或类型数据的比例,以优化模型训练过程。通过数据配比可以确保模型能够更全面地学习和理解数据的多样性,提高模型的泛化能力和性能。 数据流通:平台支持数据集
为什么其他大模型适用的提示词在盘古大模型上效果不佳 提示词与训练数据的相似度关系。 提示词的效果通常与训练数据的相似度密切相关。当提示词的内容与模型在训练过程中接触过的样本数据相似时,模型更容易理解提示词并生成相关的输出。这是因为模型通过学习大量的训练数据,逐渐建立起对特定模式、
而精确优化数据质量,确保数据满足高标准,提升模型性能。 配比数据集 数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。 流通数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。
空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 发布数据集”。 单击数据集名称查看发布数据集的基本信息、数据预览、数据血缘以及操作记录。 在“基本信息”页签可查看数据集的详细信息。 在“数据预览”页签可查看发布后的数据内容。 在“数据血缘”页签查看该数据集所经历的操作,如导入、合成等操作。
管理盘古数据资产 数据资产介绍 数据资产是指在平台中被纳入管理、存储并可供使用的数据集。 数据资产包含以下两种形式: 用户自行发布的数据集。 用户可以通过“数据工程 > 数据发布 > 数据流通”功能将数据集发布为数据资产。发布的数据集支持查看详细信息、编辑、删除以及发布至AI Gallery等操作。
使用数据工程构建数据集 数据工程介绍 数据工程使用流程 数据集格式要求 导入数据至盘古平台 加工数据集 发布数据集 数据工程常见报错与解决方案
清洗图片、视频类数据集 通过专用的清洗算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。 清洗图片类数据集、清洗视频类数据集 标注图片、视频类数据集 为无标签数据集添加准确的标签,确保模型训练所需的高质量
不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。 清洗文本类数据集 合成文本类数据集 利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集,增强训练模型的多样性和泛化能力。 合成文本类数据集 标注文本类数据集
气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针
盘古科学计算大模型数据集构建流程 流程 子流程 说明 操作指导 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 加工气象类数据集 清洗气象类数据集 通过专用的清洗算子对数据进行预处理,确保数据符合模型训练的标准和业
模型性能。 数据配比 数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。 数据流通 数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。支持的发布格式为默
发布数据集 数据集发布场景介绍 发布文本类数据集 发布图片类数据集 发布视频类数据集 发布气象类数据集 发布预测类数据集 发布其他类数据集 管理发布后的数据集 父主题: 使用数据工程构建数据集
总体而言,数据加工不仅提升了数据处理的效率,还可通过优化数据质量和针对性处理,支持高效的模型训练。通过数据加工,用户能够快速构建高质量的数据集,推动大模型的成功开发。 支持数据加工的数据集类型 当前支持数据加工操作的数据集类型见表1。 表1 支持数据加工操作的数据集类型 数据类型 数据清洗 数据合成 数据标注
加工数据集 数据集加工场景介绍 数据集清洗算子介绍 加工文本类数据集 加工图片类数据集 加工视频类数据集 加工气象类数据集 管理加工后的数据集 父主题: 使用数据工程构建数据集
Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据配比”,单击界面右上角“创建配比任务”。 在“数据集选择”页签选择需要配比的文本类数据集(至少选择两个),单击“下一步”。 在“数据配比”页面,支持两种配比方式,“按数据集”和“按标签”。