检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
其他类数据集格式要求 除文本、图片、视频、气象、预测类数据集外,用户训练模型时如果使用较特殊的数据集,ModelArts Studio大模型开发平台支持导入用户自定义的数据集。 例如,在训练CV类算法(如图片分类、图片分割、图片检测等任务)时,用户需使用“其他”类型的数据集。 其
数据保护技术 盘古大模型服务通过多种数据保护手段和特性,保障存储在服务中的数据安全可靠。 表1 盘古大模型的数据保护手段和特性 数据保护手段 简要说明 传输加密(HTTPS) 盘古服务使用HTTPS传输协议保证数据传输的安全性。 基于OBS提供的数据保护 基于OBS服务对用户的数
单轮问答”类型的数据集。 图2 创建文本数据集发布任务 设置发布方式。除“问答排序”类型外,其余数据类型可选两种发布方式:“单个数据集”、“混合数据集”。选择数据集时,默认选择当前空间数据集,如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 若选择发布方式为“单个数据集”,选择数据集后,单击“下一步”。
具备。 评估作业员 拥有数据工程数据评估-评估作业模块的所有权限,其余角色不具备。 数据导入员 拥有数据工程数据获取-数据导入模块的所有权限,其余角色不具备。 数据加工员 拥有数据工程数据加工模块的所有权限,其余角色不具备。 数据发布员 拥有数据工程数据发布模块的所有权限,其余角色不具备。
文本类数据集,详见发布文本类数据集。 视频类数据集,详见发布视频类数据集。 图片类数据集,详见发布图片类数据集。 气象类数据集,详见发布气象类数据集。 预测类数据集,详见发布预测类数据集。 其他类数据集,详见发布其他类数据集。 支持发布的数据格式 ModelArts Studio大模型开发平台支持将文本类、图片类数据集发布为三种格式:
如何调用REST API 构造请求 认证鉴权 返回结果
说明 导入数据至盘古平台 创建原始数据集 数据集是指用于模型训练或评测的一组相关数据样本,上传至平台的数据将被创建为原始数据集进行统一管理。 上线原始数据集 在正式发布数据集前,需要执行上线操作。 加工数据集(可选) 创建数据集加工任务 当数据集中存在异常数据、噪声数据、或不符合
管理盘古数据资产 数据资产介绍 用户发布的数据集会被纳入数据资产,集中存储在空间资产中。平台为数据资产提供了一系列管理功能,包括查看数据集的详细信息、追踪操作记录、以及数据集的删除管理等。这不仅便于用户对已发布数据集的集中管理,还可帮助用户了解每个数据集的使用情况,从而简化数据资产的
> 数据加工”,单击界面右上角“创建加工数据集”。 图2 数据加工 在“创建加工数据集”页面,选择需要加工的视频类数据集,并设置数据集的名称和描述信息。 选择数据集时,默认选择当前空间的数据集。如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 图3 创建加工数据集
上线原始数据集 在正式发布数据集前,需要执行上线操作。 上线原始数据集 加工数据集 创建文本类数据集加工任务 数据集中若存在异常数据,可通过数据集加工功能去除异常字符、表情符号、个人敏感内容等。 说明: 盘古NLP大模型仅支持接入文本类数据集。 若数据类型为文档、网页,则加工数据集为必选项,否则为可选项。
等扩展信息以及该数据集的创建、导入、上线等操作记录。 下载数据文件。在“数据获取”页面,单击数据集名称,在“数据文件”页签,单击文件操作列的“下载”,可实现下载数据文件操作。 查看数据血缘。在“数据获取”页面,单击数据集名称,在“数据血缘”页签,可以查看当前数据集所经历的完整操作,如加工、标注等。
> 数据加工”,单击界面右上角“创建加工数据集”。 图2 数据加工 在“创建加工数据集”页面,选择需要加工的气象类数据集,并设置数据集的名称和描述信息。 选择数据集时,默认选择当前空间的数据集。如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 图3 创建加工数据集
对”类型的数据。 图2 创建图片类数据集发布任务 设置发布方式。图片类数据集可选两种发布方式:“单个数据集”、“混合数据集”。选择数据集时,默认选择当前空间数据集,如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 若选择发布方式为“单个数据集”,选择数据集后,单击“下一步”。
大模型微调训练类问题 无监督领域知识数据量无法支持增量预训练,如何进行模型学习 如何调整训练参数,使盘古大模型效果最优 如何判断盘古大模型训练状态是否正常 如何评估微调后的盘古大模型是否正常 如何调整推理参数,使盘古大模型效果最优 为什么微调后的盘古大模型总是重复相同的回答 为什么微调后的盘古大模型的回答中会出现乱码
盘古科学计算大模型数据集构建流程 流程 子流程 说明 操作指导 导入数据至盘古平台 创建原始数据集 数据集是指用于模型训练或评测的一组相关数据样本,上传至平台的数据将被创建为原始数据集进行统一管理。 创建原始数据集 上线原始数据集 在正式发布数据集前,需要执行上线操作。 上线原始数据集 加工数据集(可选)
审核文本类数据集标注结果 创建数据集标注任务时,如果设置了启用标注审核,在完成标注后可以在“标注审核”页面审核标注结果。 对于审核不合格的数据可以填写不合格原因并驳回给标注员重新标注。创建标注任务时如果指定了审核人员,则审核人员可以审核数据集,管理员(主账号)可以对所有数据集进行审核。
审核视频类数据集标注结果 创建数据集标注任务时,如果设置了启用标注审核,在完成标注后可以在“标注审核”页面审核标注结果。 对于审核不合格的数据可以填写不合格原因并驳回给标注员重新标注。创建标注任务时如果指定了审核人员,则审核人员可以审核数据集,管理员(主账号)可以对所有数据集进行审核。
> 数据加工”,单击界面右上角“创建加工数据集”。 图2 数据加工 在“创建加工数据集”页面,选择需要加工的文本类数据集,并设置数据集的名称和描述。 选择数据集时,默认选择当前空间的数据集。如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 图3 创建加工数据集 单击
数据集标注场景介绍 数据标注概念 数据标注是数据工程中的关键步骤,旨在为无标签的数据集添加准确的标签,从而为模型训练提供有效的监督信号。标注数据的质量直接影响模型的训练效果和精度,因此高效、准确的标注过程至关重要。数据标注不仅仅是人工输入,它还涉及对数据内容的理解和分类,以确保标签精准地反映数据的特征和用途。
创建视频类数据集标注任务 创建视频类数据集标注任务前,请先完成创建视频类数据集加工任务。 创建视频类数据集标注任务步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程 > 数据标注 > 标注管理”,单击页面右上角“创建标注任务”。