检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
导入数据过程中,为什么无法选中OBS的单个文件进行上传 当前,ModelArts Studio平台针对不同类别的数据集可使用OBS服务导入的文件形式不同: 文本、视频、预测和其他类(自定义)数据集支持文件夹或单个文件导入,导入界面提示用户:“请选择文件夹或文件”。 图1 支持导入单个文件示例
如何将本地的数据上传至平台 ModelArts Studio平台支持从OBS服务导入数据。您可以将本地数据上传至OBS(对象存储服务),然后通过平台提供的“数据导入”功能,将存储在OBS中的数据导入至平台进行使用。 具体操作步骤如下: 上传数据至OBS:将本地数据上传至OBS服务,请详见通过控制台快速使用OBS。
组装为有监督数据。使用模型构建的优点是数据丰富度更高,缺点是成本较高。 当您将无监督数据构建为有监督数据时,请尽可能保证数据的多样性。建议将不同文本构建为不同的场景,甚至将同一段文本构建为多个不同的场景。 不同规格的模型支持的长度不同,当您将无监督数据构建为有监督数据时,请确保数据长度符合模型长度限制。
优化训练数据的质量 在数据科学和机器学习领域,数据的质量和多样性对模型的效果至关重要。通过有效的数据预处理和数据优化方法,通过提升训练数据的质量可以显著提升训练所得模型的效果。以下是一些关键的数据优化方法及其具体过程: 数据加工 错误数据过滤 :在大规模数据集中,噪声和错误数据是不可
评估文本类数据集 发布文本类数据集前,ModelArts Studio大模型开发平台支持对数据集进行评估操作,帮助用户优化数据质量,确保数据满足高标准,提升模型性能。 如果无需使用数据评估操作,可跳过此章节至发布文本类数据集。 创建文本类数据集评估标准 ModelArts Stu
使用数据工程构建科学计算大模型数据集 科学计算大模型支持接入的数据集类型 盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求。 训练科学计算大模型训练数据要求所需数据量 构建科学计算大模型进行训练的数据要求见表1。 表1 科学计算大模型训练数据要求
补缺失数据,确保数据的准确性与一致性,从而提高数据质量,为模型训练提供可靠的输入。 扩展数据集的多样性和泛化能力 在数据量不足或样本不平衡的情况下,数据合成可以生成新数据,扩展数据集的规模和多样性。通过增加数据的多样性,能够提升模型在各种场景下的泛化能力,增强其对未知数据的适应性。
值。 通过可视化方法,数据可视化或者使用箱线图进行异常值的排查。 结合数据自身特征,进行异常数据的筛选。 对于异常值,视情况进行删除、替换、保留等操作,兼顾模型的收敛与鲁棒性。 优化举例: 某数据集中,盐度(S)变量在下载过程中存在数据块缺失与数据块偏移的问题,如图1、图2,导致
数据合成:平台支持利用预置或自定义的数据指令对预训练文本、单轮问答、单轮问答(人设))数据集类型进行处理,并根据设定的轮数生成新数据。通过数据合成技术,可以生成大量高质量的训练数据,这些数据可以用于大模型的预训练,增强模型的泛化能力和性能。 数据标注:平台支持对无标签的数据添加标签或对现有的标签进行重新标注
对不同类型的数据集,平台设计了专用的加工算子,以确保数据符合模型训练的标准和业务需求。 数据合成:数据合成利用预置或自定义的数据指令对原始数据集进行处理,并根据设定的轮数生成新的数据。 数据标注:数据标注旨在为无标签的数据集添加准确的标签,标注数据的质量直接影响模型的训练效果和精
Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据管理 > 数据集 > 加工数据集”。 单击数据集名称查看加工数据集的基本信息、数据预览、数据血缘以及操作记录。 在“基本信息”页签可查看数据集的详细信息。 在“数据预览”页签可查看加工后的数据内容。
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不同,回归分类数据不要求数据具有时间顺序。
评估视频类数据集 发布视频类数据集前,ModelArts Studio大模型开发平台支持对数据集进行评估操作,帮助用户优化数据质量,确保数据满足高标准,提升模型性能。 如果无需使用数据评估操作,可跳过此章节至发布视频类数据集。 创建视频类数据集评估标准 ModelArts Stu
成”,生成加工数据集。 生成的加工数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。 预置数据指令介绍 ModelArts Studio平台的数据合成功能为用户提供了预置指令,用户可以在“数据工程 > 数据管理 > 数据指令 > 系统预置”查看指令详情,如图
在左侧导航栏中选择“数据工程 > 数据管理 > 数据集 > 发布数据集”。 单击数据集名称查看发布数据集的基本信息、数据预览、数据血缘以及操作记录。 在“基本信息”页签可查看数据集的详细信息。 在“数据预览”页签可查看发布后的数据内容。 在“数据血缘”页签查看该数据集所经历的操作,如导入、合成、训练等操作。
通过专用的加工算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。 合成数据集 利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集,增强训练模型的多样性和泛化能力。 标注数据集
不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。 加工文本类数据集 合成文本类数据集 利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集,增强训练模型的多样性和泛化能力。 合成文本类数据集 标注文本类数据集
“核采样”参数为1的生成结果1 图3 “核采样”参数为1的生成结果2 将“核采样”参数调小至0.1,保持其他参数不变,单击“重新生成”,再单击“重新生成”,可以观察到模型前后两次回复内容的多样性降低。 图4 “核采样”参数为0.1的生成结果1 图5 “核采样”参数为0.1的生成结果2
信息。 数据集版权。训练模型的数据集除用户自行构建外,也可能会使用开源的数据集。数据集版权功能主要用于记录和管理数据集的版权信息,确保数据的使用合法合规,并清晰地了解数据集的来源和相关的版权授权。通过填写这些信息,可以追溯数据的来源,明确数据使用的限制和许可,从而保护数据版权并避免版权纠纷。
数据保护技术 盘古大模型服务通过多种数据保护手段和特性,保障存储在服务中的数据安全可靠。 表1 盘古大模型的数据保护手段和特性 数据保护手段 简要说明 传输加密(HTTPS) 盘古服务使用HTTPS传输协议保证数据传输的安全性。 基于OBS提供的数据保护 基于OBS服务对用户的数