检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何将本地的数据上传至平台 ModelArts Studio平台支持从OBS服务导入数据。您可以将本地数据上传至OBS(对象存储服务),然后通过平台提供的“数据导入”功能,将存储在OBS中的数据导入至平台进行使用。 具体操作步骤如下: 上传数据至OBS:将本地数据上传至OBS服务,请详见通过控制台快速使用OBS。
导入数据过程中,为什么无法选中OBS的具体文件进行上传 在数据导入过程中,平台仅支持通过OBS服务导入文件夹类型的数据,而不支持直接导入单个文件。 您需要将文件整理到文件夹中,并选择该文件夹进行上传。 父主题: 大模型使用类问题
配比图片类数据集 数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通图片类数据集。 创建图片类数据集配比任务 创建图片类数据集配比任务步骤如下: 登录ModelArts St
平台预置了多种数据类型的基础评估标准,包括NLP、视频和图片数据,用户可根据需求选择预置标准或自定义评估标准,从而精确优化数据质量,确保数据满足高标准,提升模型性能。 评估图片类数据集、评估视频类数据集 配比图片类数据集 数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程
配比文本类数据集 数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通文本类数据集。 创建文本类数据集配比任务 创建文本类数据集配比任务步骤如下: 登录ModelArts St
使用数据工程构建预测大模型数据集 预测大模型支持接入的数据集类型 盘古预测大模型仅支持接入预测类数据集,不同模型所需数据见表1,该数据集格式要求请参见预测类数据集格式要求。 表1 预测大模型与数据集类型对应关系 基模型 模型分类 数据集内容 文件格式 预测大模型 时序预测模型 时序数据
通过这些功能,用户可以轻松将大量数据导入平台,为后续的数据加工和模型训练等操作做好准备。 数据加工:平台提供了数据清洗、数据合成、数据标注的加工操作,旨在确保原始数据能够满足各种业务需求和模型训练的标准。 数据清洗:数据清洗旨在通过使用数据集清洗算子对数据进行预处理操作,针对不同类型的数据集,平台
“核采样”等参数的设置,适当增大其中一个参数的值,可以提升模型回答的多样性。 数据质量:请检查训练数据中是否存在文本重复的异常数据,可以通过规则进行清洗。 训练参数设置:若数据质量存在问题,且因训练参数设置的不合理而导致过拟合,该现象会更加明显。请检查训练参数中的 “训练轮次”或
正向实现数据集影响分析,逆向实现快速问题追踪,提升数据运维和数据治理的效率,帮助用户更好地对数据进行追根溯源。另外平台还提供了完善的标签体系、支持数据按行业标准进行分类、按行业标准进行安全分级、内置场景分类标签。帮助用户进行数据分类、数据质量控制和数据资产管理,提升数据治理的效率和效果。
jsonl 训练NLP大模型所需数据量 使用数据工程构建盘古NLP大模型数据集进行模型训练时,所需数据量见表2。 表2 构建NLP大模型所需数据量 模型规格 训练类型 推荐数据量 最小数据量(数据条数) 单场景推荐训练数据量 单条数据Token长度限制 N1 微调 - 1000条/每场景
使用数据工程构建科学计算大模型数据集 科学计算大模型支持接入的数据集类型 盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求。 训练科学计算大模型训练数据要求所需数据量 构建科学计算大模型进行训练的数据要求见表1。 表1 科学计算大模型训练数据要求
使用数据工程构建数据集 数据工程介绍 数据工程使用流程 数据集格式要求 导入数据至盘古平台 加工数据集 发布数据集 数据工程常见报错与解决方案
从而精确优化数据质量,确保数据满足高标准,提升模型性能。 配比数据集 数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。 流通数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。
通过优化数据质量和针对性处理,支持高效的模型训练。通过数据加工,用户能够快速构建高质量的数据集,推动大模型的成功开发。 支持数据加工的数据集类型 当前支持数据加工操作的数据集类型见表1。 表1 支持数据加工操作的数据集类型 数据类型 数据清洗 数据合成 数据标注 文本类 √ √ √
让模型学习。 这里提供了一些将无监督数据转换为有监督数据的方案,供您参考: 基于规则构建:您可以通过采用一些简单的规则来构建有监督数据。比如: 表1 采用规则将无监督数据构建为有监督数据的常用方法 规则场景 说明 文本生成:根据标题、关键词、简介生成段落。 若您的无监督文档中含标
上传文件限xlsx格式。 数据行数不小于10行,不大于50行。 数据不允许相同表头,表头数量小于20个。 数据单条文本长度不超过1000。 创建数据集时会对相关限制条件进行校验。 数据参考格式如下: 图1 数据参考格式 图2 数据示例 创建提示词评估数据集 登录ModelArts
在左侧导航栏中选择“数据工程 > 数据获取 > 原始数据集”,单击需要查看的数据集名称。 查看数据集基本信息。在“基本信息”页签,可以查看数据详情、数据来源以及扩展信息。 下载原始数据集。在“数据预览”页签,可以查看数据内容,单击右上角“下载”即可下载原始数据集。 查看数据血缘。在“数据血缘”
单击左侧“能力调测”,进入“文本对话”页签,选择服务与系统人设,参数设置为默认参数,在输入框输入问题,单击“生成”,模型将基于问题进行回答。 图1 使用预置服务进行文本对话 可以尝试修改参数并查看模型效果。以修改“核采样”参数为例,核采样控制生成文本的多样性和质量: 当“核采样”参
平台提供的数据发布功能,用户能够根据具体任务需求,灵活选择数据发布格式,保证数据的兼容性与一致性,从而为后续模型训练和应用部署打下坚实基础。 支持数据发布的数据集类型 支持数据发布的数据集类型见表1。 表1 支持数据发布的数据集类型 数据类型 数据评估 数据配比 数据流通 文本类
数据保护技术 盘古大模型服务通过多种数据保护手段和特性,保障存储在服务中的数据安全可靠。 表1 盘古大模型的数据保护手段和特性 数据保护手段 简要说明 传输加密(HTTPS) 盘古服务使用HTTPS传输协议保证数据传输的安全性。 基于OBS提供的数据保护 基于OBS服务对用户的数