检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Studio大模型开发平台,支持的数据类型包括文本、图片、视频、气象、预测数据以及用户自定义的其他类型数据。平台提供灵活的数据接入方式以及支持多种文件格式导入,确保不同业务场景下的数据获取需求得到满足。 数据加工:平台提供强大的数据加工功能,可以对文本、视频、图片、气象类型的数据进行数据提取、过滤、转
加工气象类数据集 通过专用的加工算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。 加工气象类数据集 发布气象类数据集 发布气象类数据集 数据发布是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。
通过这些功能,用户可以轻松将大量数据导入平台,为后续的数据加工和模型训练等操作做好准备。 数据加工:平台提供了数据加工、数据合成、数据标注、数据配比的加工操作,旨在确保原始数据能够满足各种业务需求和模型训练的标准,生成“加工数据集”。 数据加工:数据加工旨在通过使用数据集加工算子对数据进行预处理操作
jsonl 训练NLP大模型所需数据量 使用数据工程构建盘古NLP大模型数据集进行模型训练时,所需数据量见表2。 表2 构建NLP大模型所需数据量 模型规格 训练类型 推荐数据量 最小数据量(数据条数) 单场景推荐训练数据量 单条数据Token长度限制 N1 微调 - 1000条/每场景
气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针
数据保护技术 盘古大模型服务通过多种数据保护手段和特性,保障存储在服务中的数据安全可靠。 表1 盘古大模型的数据保护手段和特性 数据保护手段 简要说明 传输加密(HTTPS) 盘古服务使用HTTPS传输协议保证数据传输的安全性。 基于OBS提供的数据保护 基于OBS服务对用户的数
和代表性,避免因数据分布不均而引发的问题。 发布数据集 评估数据集 平台预置了多种数据类型的基础评估标准,包括NLP、视频和图片数据,用户可根据需求选择预置标准或自定义评估标准,从而精确优化数据质量,确保数据满足高标准,提升模型性能。 发布数据集 数据发布是将数据集发布为特定格式
加工数据集 数据集加工场景介绍 数据集加工算子介绍 加工文本类数据集 加工图片类数据集 加工视频类数据集 加工气象类数据集 管理加工后的数据集 父主题: 使用数据工程构建数据集
在左侧导航栏中选择“数据工程 > 数据获取 > 原始数据集”,单击需要查看的数据集名称。 查看数据集基本信息。在“基本信息”页签,可以查看数据详情、数据来源以及扩展信息。 下载原始数据集。在“数据预览”页签,可以查看数据内容,单击右上角“下载”即可下载原始数据集。 查看数据血缘。在“数据血缘”
使用数据工程构建数据集 数据工程介绍 数据工程使用流程 数据集格式要求 导入数据至盘古平台 加工数据集 发布数据集 数据工程常见报错与解决方案
管理盘古数据资产 数据资产介绍 数据资产是指在平台中被纳入管理、存储并可供使用的数据集。 数据资产包含以下两种形式: 用户自行发布的数据集。 用户可以通过“数据工程 > 数据发布 > 数据流通”功能将数据集发布为数据资产。发布的数据集支持查看详细信息、编辑、删除以及发布至AI Gallery等操作。
概述 盘古大模型整合华为云强大的计算和数据资源,将先进的AI算法集成在预训练大模型中,打造出具有深度语义理解与生成能力的人工智能大语言模型。可进行对话互动、回答问题、协助创作。 盘古大模型在ModelArts Studio大模型开发平台部署后,可以通过API调用推理接口。 表1 API清单
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不同,回归分类数据不要求数据具有时间顺序。
异常值。 通过可视化方法,数据可视化或者使用箱线图进行异常值的排查。 结合数据自身特征,进行异常数据的筛选。 对于异常值,视情况进行删除、替换、保留等操作,兼顾模型的收敛与鲁棒性。 优化举例: 某数据集中,盐度(S)变量在下载过程中存在数据块缺失与数据块偏移的问题,如图1、图2,
发布数据集 数据集发布场景介绍 发布文本类数据集 发布图片类数据集 发布视频类数据集 发布气象类数据集 发布预测类数据集 发布其他类数据集 管理发布后的数据集 父主题: 使用数据工程构建数据集
务成功的提示。 在完成数据标注后,如果无需进行标注审核,可直接在“标注任务 > 任务管理”页签单击“生成”,生成加工数据集。 生成的加工数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。 审核标注后的文本类数据集 如果在创建文本类数据集标注任务时启用了标注审
在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 生成的加工数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。 审核标注后的视频类数据集 如果在创建视频类数据集标注任务时启用了标注审核功能,则在完成标注后
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi 支持mp4、avi视频格式上传,所有视频可以放在多个文件夹
数据集格式要求 文本类数据集格式要求 图片类数据集格式要求 视频类数据集格式要求 气象类数据集格式要求 预测类数据集格式要求 其他类数据集格式要求 父主题: 使用数据工程构建数据集
在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 生成的加工数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。 审核标注后的图片类数据集 如果在创建图片类数据集标注任务时启用了标注审核功能,则在完成标注后