检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
x:相关信息;2xx:操作成功;3xx:重定向;4xx:客户端错误;5xx:服务器错误。 状态码如下所示。 状态码 编码 状态说明 100 Continue 继续请求。 这个临时响应用来通知客户端,它的部分请求已经被服务器接收,且仍未被拒绝。 101 Switching Protocols
提供坚实的数据基础。 数据工程所包含的具体功能如下: 数据获取:数据获取是数据工程的第一步,涉及从不同来源和格式的数据导入到平台。ModelArts Studio大模型开发平台提供多种高效灵活的数据接入方式,支持本地上传、通过OBS服务将数据导入平台。平台支持的多种数据类型包括文
数据获取:用户可以轻松将多种类型的数据导入ModelArts Studio大模型开发平台,支持的数据类型包括文本、图片、视频、气象、预测数据以及用户自定义的其他类型数据。平台提供灵活的数据接入方式,确保不同业务场景下的数据获取需求得到满足。 数据加工:平台提供强大的数据加工功能,涵盖数据清洗、过滤等操作
只有上线后的数据集才可用于后续的数据加工、标注、评估、发布操作。 管理原始数据集 原始数据集上线成功后,支持查看数据集详情、下载数据集、查看数据血缘、以及对数据集进行删除等操作。 支持查看数据集详情。在“数据获取”页面,单击数据集名称,在“基本信息”页签可查看当前数据集的创建人、创建时
数据集标注场景介绍 数据标注概念 数据标注是数据工程中的关键步骤,旨在为无标签的数据集添加准确的标签,从而为模型训练提供有效的监督信号。标注数据的质量直接影响模型的训练效果和精度,因此高效、准确的标注过程至关重要。数据标注不仅仅是人工输入,它还涉及对数据内容的理解和分类,以确保标签精准地反映数据的特征和用途。
数据保护技术 盘古大模型服务通过多种数据保护手段和特性,保障存储在服务中的数据安全可靠。 表1 盘古大模型的数据保护手段和特性 数据保护手段 简要说明 传输加密(HTTPS) 盘古服务使用HTTPS传输协议保证数据传输的安全性。 基于OBS提供的数据保护 基于OBS服务对用户的数
创建原始数据集 数据集是指用于模型训练或评测的一组相关数据样本,上传至平台的数据将被创建为原始数据集进行统一管理。 上线原始数据集 在正式发布数据集前,需要执行上线操作。 加工数据集(可选) 创建数据集加工任务 当数据集中存在异常数据、噪声数据、或不符合分析需求的数据时,可以通过加
上线原始数据集 在正式发布数据集前,需要执行上线操作。 上线原始数据集 加工数据集 创建文本类数据集加工任务 数据集中若存在异常数据,可通过数据集加工功能去除异常字符、表情符号、个人敏感内容等。 说明: 盘古NLP大模型仅支持接入文本类数据集。 若数据类型为文档、网页,则加工数据集为必选项,否则为可选项。
使用数据工程准备与处理数据集 数据工程介绍 数据工程使用流程 数据集格式要求 导入数据至盘古平台 加工数据集 标注数据集 评估数据集 发布数据集 数据工程常见报错与解决方案
标注数据集 数据集标注场景介绍 标注文本类数据集 标注视频类数据集 标注图片类数据集 父主题: 使用数据工程准备与处理数据集
发布数据集 数据集发布场景介绍 发布文本类数据集 发布视频类数据集 发布图片类数据集 发布气象类数据集 发布预测类数据集 发布其他类数据集 父主题: 使用数据工程准备与处理数据集
加工数据集 数据集加工场景介绍 数据集加工算子介绍 加工文本类数据集 加工视频类数据集 加工图片类数据集 加工气象类数据集 父主题: 使用数据工程准备与处理数据集
评估数据集 数据集评估场景介绍 评估文本类数据集 评估视频类数据集 评估图片类数据集 父主题: 使用数据工程准备与处理数据集
盘古科学计算大模型数据集构建流程 流程 子流程 说明 操作指导 导入数据至盘古平台 创建原始数据集 数据集是指用于模型训练或评测的一组相关数据样本,上传至平台的数据将被创建为原始数据集进行统一管理。 创建原始数据集 上线原始数据集 在正式发布数据集前,需要执行上线操作。 上线原始数据集 加工数据集(可选)
数据发布”,单击界面右上角“创建发布数据集”。 在“创建发布数据集”页面,选择“预测”类型的数据集。并根据训练任务场景选择“时序”、“回归分类”类型的数据。 图2 创建预测类数据集发布任务 当前预测类数据集仅支持发布默认格式,选择好数据集的发布格式后,单击“下一步”。 设置数据集
> 数据发布”,单击界面右上角“创建发布数据集”。 在“创建发布数据集”页面,选择“其他”类型的数据集,当前可选“自定义”类型的数据。 图2 创建其他类数据集发布任务 当前其他类数据集仅支持发布默认格式,选择好数据集的发布格式后,单击“下一步”。 设置数据集的“资产可见性”,填写数
文本类数据集,详见发布文本类数据集。 视频类数据集,详见发布视频类数据集。 图片类数据集,详见发布图片类数据集。 气象类数据集,详见发布气象类数据集。 预测类数据集,详见发布预测类数据集。 其他类数据集,详见发布其他类数据集。 支持发布的数据格式 ModelArts Studio大模型开发平台支持将文本类、图片类数据集发布为三种格式:
> 数据发布”,单击界面右上角“创建发布数据集”。 在“创建发布数据集”页面,选择“视频”类型的数据集。 图2 创建视频数据集发布任务 勾选所需要的数据集后,单击“下一步”进入数据过滤步骤。 数据过滤阶段可以设置多种过滤属性,对视频数据集进行筛选。例如,过滤掉数据集中低于360分辨率的视频。
> 数据发布”,单击界面右上角“创建发布数据集”。 在“创建发布数据集”页面,选择“气象”类型的数据集,当前可选“海洋气象”类型的数据。 图2 创建气象类数据集发布任务 当前气象类数据集仅支持发布默认格式,选择好数据集的发布格式后,单击“下一步”。 设置数据集的“资产可见性”,填写
单轮问答”类型的数据集。 图2 创建文本数据集发布任务 设置发布方式。除“问答排序”类型外,其余数据类型可选两种发布方式:“单个数据集”、“混合数据集”。选择数据集时,默认选择当前空间数据集,如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 若选择发布方式为“单个数据集”,选择数据集后,单击“下一步”。