检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据保护技术 盘古大模型服务通过多种数据保护手段和特性,保障存储在服务中的数据安全可靠。 表1 盘古大模型的数据保护手段和特性 数据保护手段 简要说明 传输加密(HTTPS) 盘古服务使用HTTPS传输协议保证数据传输的安全性。 基于OBS提供的数据保护 基于OBS服务对用户的数
用于文本类数据集。通过加工操作,平台能够有效清理噪声数据、标准化数据格式,提升数据集的整体质量。 数据标注:在大模型的训练中,数据标注至关重要。平台不仅支持对无标签数据进行手动标注或重新标注,还支持对图片、视频类数据集通过AI预标注技术提升标注效率。AI预标注功能通过自动化的方式
数据获取:用户可以轻松将多种类型的数据导入ModelArts Studio大模型开发平台,支持的数据类型包括文本、图片、视频、气象、预测数据以及用户自定义的其他类型数据。平台提供灵活的数据接入方式,确保不同业务场景下的数据获取需求得到满足。 数据加工:平台提供强大的数据加工功能,涵盖数据清洗、过滤等操作
文件内容校验不通过,需要检查上传的文件数据格式是否正确。可以在“创建原始数据集”页面下载数据样例进行比对。 上线原始数据集 原始数据集创建成功后,在“数据获取”页面的操作列单击“上线”,完成原始数据集上线。 图6 上线数据集 只有上线后的数据集才可用于后续的数据加工、标注、评估、发布操作。 管理原始数据集 原始数
创建原始数据集 数据集是指用于模型训练或评测的一组相关数据样本,上传至平台的数据将被创建为原始数据集进行统一管理。 上线原始数据集 在正式发布数据集前,需要执行上线操作。 加工数据集(可选) 创建数据集加工任务 当数据集中存在异常数据、噪声数据、或不符合分析需求的数据时,可以通过加工
上线原始数据集 在正式发布数据集前,需要执行上线操作。 上线原始数据集 加工数据集 创建文本类数据集加工任务 数据集中若存在异常数据,可通过数据集加工功能去除异常字符、表情符号、个人敏感内容等。 说明: 盘古NLP大模型仅支持接入文本类数据集。 若数据类型为文档、网页,则加工数据集为必选项,否则为可选项。
数据集发布场景介绍 数据发布概念 数据发布是指将经过加工、标注、评估的数据集导出并生成符合特定任务或模型训练需求的正式数据集。数据发布是数据处理流程中的关键步骤,也是数据集构建的最终环节。 数据发布过程不仅包括将数据转化为适合使用的格式,还要求根据任务需求对数据集的比例进行科学调
数据集标注场景介绍 数据标注概念 数据标注是数据工程中的关键步骤,旨在为无标签的数据集添加准确的标签,从而为模型训练提供有效的监督信号。标注数据的质量直接影响模型的训练效果和精度,因此高效、准确的标注过程至关重要。数据标注不仅仅是人工输入,它还涉及对数据内容的理解和分类,以确保标签精准地反映数据的特征和用途。
单轮问答”类型的数据集。 图2 创建文本数据集发布任务 设置发布方式。除“问答排序”类型外,其余数据类型可选两种发布方式:“单个数据集”、“混合数据集”。选择数据集时,默认选择当前空间数据集,如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 若选择发布方式为“单个数据集”,选择数据集后,单击“下一步”。
使用数据工程准备与处理数据集 数据工程介绍 数据工程使用流程 数据集格式要求 导入数据至盘古平台 加工数据集 标注数据集 评估数据集 发布数据集 数据工程常见报错与解决方案
加工数据集(可选) 创建气象类数据集加工任务 数据集中若存在异常数据,可通过数据集加工功能去除异常字符、表情符号、个人敏感内容等。 创建气象类数据集加工任务 上线加工后的数据集 对加工后的数据集执行上线操作。 上线加工后的文本类数据集 发布数据集 创建气象类数据集发布任务 创建发布数
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,每个数据点都有一个时间戳,表示数据在时间上的位置。它用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种
管理盘古数据资产 数据资产介绍 用户发布的数据集会被纳入数据资产,集中存储在空间资产中。平台为数据资产提供了一系列管理功能,包括查看数据集的详细信息、追踪操作记录、以及数据集的删除管理等。这不仅便于用户对已发布数据集的集中管理,还可帮助用户了解每个数据集的使用情况,从而简化数据资产的
标注数据集 数据集标注场景介绍 标注文本类数据集 标注视频类数据集 标注图片类数据集 父主题: 使用数据工程准备与处理数据集
数据集评估场景介绍 数据评估概念 数据评估旨在通过对数据集进行系统的质量检查,评估其准确性、完整性、一致性和代表性等多个维度,发现潜在问题并加以解决。 在构建和使用数据集的过程中,数据评估是确保数据质量的关键步骤,直接影响模型的性能和应用效果。高质量的数据集能够显著提升模型的准确
发布数据集 数据集发布场景介绍 发布文本类数据集 发布视频类数据集 发布图片类数据集 发布气象类数据集 发布预测类数据集 发布其他类数据集 父主题: 使用数据工程准备与处理数据集
加工数据集 数据集加工场景介绍 数据集加工算子介绍 加工文本类数据集 加工视频类数据集 加工图片类数据集 加工气象类数据集 父主题: 使用数据工程准备与处理数据集
评估数据集 数据集评估场景介绍 评估文本类数据集 评估视频类数据集 评估图片类数据集 父主题: 使用数据工程准备与处理数据集
创建视频类数据集标注任务 创建视频类数据集标注任务前,请先完成创建视频类数据集加工任务。 创建视频类数据集标注任务步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程 > 数据标注 > 标注管理”,单击页面右上角“创建标注任务”。
气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针