检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据发布过程不仅包括将数据转化为适合使用的格式,还要求根据任务需求对数据集的比例进行科学调整,确保数据集在规模、质量和内容上满足模型训练的标准。 通过灵活调整数据集的比例配比,用户能够保证数据的均衡性,避免因数据分布不均可能引发的问题,从而构建高质量、适应性强的数据集,为后续的模型训练、验证和应用提供坚实的数据支持。
过身份认证,获得操作API的权限。 Token的有效期为24小时,需要使用一个Token鉴权时,可以先缓存起来,避免频繁调用。 如果您的华为云账号已升级为华为账号,将不支持获取账号Token。建议为您自己创建一个IAM用户,获取IAM用户的Token。 获取Token方法: To
数据加工概念 数据加工是数据工程中的核心环节,旨在通过使用数据集加工算子对原始数据进行清洗、转换、提取和过滤等操作,以确保数据符合模型训练的标准和业务需求。 通过这一过程,用户能够优化数据质量,去除噪声和冗余信息,提升数据的准确性和一致性,为后续的模型训练提供更高质量、更有效的输入
审核数据集标注结果 对数据集的标注结果进行审核。 上线标注后的数据集 对标注后的数据集执行上线操作。 评估数据集(可选) 创建数据集评估标准 创建数据集评估标准。评估文本通顺性、信息充分性、内容有效性等。 创建数据集评估任务 创建数据集质量评估任务,并基于评估标注对数据逐一评估其质量,评估后的数据可以用于模型训练。
在“数据集选择”页签选择需要进行评估的加工数据集,并设置抽样规格,即从数据集中抽取一定比例数据用于评估。 图3 选择数据集 单击“下一步”选择需要使用的评估标准。标准选择完成后,单击“下一步”设置评估人员。 图4 选择评估标注 图5 选择评估人员 评估人员设置完成后,单击“下一步”填写任务名称。单击“
在“数据集选择”页签选择需要进行评估的加工数据集,并设置抽样规格,即从数据集中抽取一定比例数据用于评估。 图3 选择数据集 单击“下一步”选择需要使用的评估标准。标准选择完成后,单击“下一步”设置评估人员。 图4 选择评估标注 图5 选择评估人员 评估人员设置完成后,单击“下一步”填写任务名称。单击“
对标注后的数据集执行上线操作。 上线标注后的文本类数据集 评估数据集(可选) 创建文本类数据集评估标准 创建数据集评估标准。评估文本通顺性、信息充分性、内容有效性等。 创建文本类数据集评估标准 创建文本类数据集评估任务 创建数据集质量评估任务,基于评估标注对数据逐一评估其质量。 创建文本类数据集评估任务
中文简繁转换 将简体文本转换为繁体,或将繁体文本转换为简体。 符号标准化 查找数据中携带的非标准化符号进行标准化、统一化转换。 统一空格:将所有Unicode空格(如U+00A0、U+200A)转换为标准空格(U+0020)。 全角转半角:将文本中的全角字符转换为半角字符。
业务需求和模型训练的要求。针对不同类型的数据集,平台提供了专用的加工算子,有效提升数据质量并支持大规模数据处理,确保生成的数据集符合训练的标准。 数据标注:对于无标签的数据,平台支持进行标注或重新标注,以提升数据集的标注质量。针对文本和图片类数据集,平台还提供AI预标注功能,利用
模型在部署前,通过模型压缩可以降低推理显存占用,节省推理资源提高推理性能。当前仅支持对NLP大模型进行压缩。采用的压缩方式是INT8,INT8量化压缩可以显著减小模型的存储大小,降低功耗,并提高计算速度。 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“模型开发
管理盘古模型资产 模型资产介绍 用户在平台中可试用、订购或训练后发布的模型,将被视为模型资产并存储在空间资产内,方便统一管理与操作。用户可以查看模型的所有历史版本及操作记录,从而追踪模型的演变过程。同时,平台支持一系列便捷操作,包括模型训练、压缩和部署,帮助用户简化模型开发及应用
去除重复数据:确保数据集中每条数据的唯一性。 填补缺失值:填充数据中的缺失部分,常用方法包括均值填充、中位数填充或删除缺失数据。 数据标准化:将数据转换为统一的格式或范围,特别是在处理数值型数据时(如归一化或标准化)。 去噪处理:去除无关或异常值,减少对模型训练的干扰。 数据预处理的目的是保证数据集的质量,使其能
审核数据集标注结果 对数据集的标注结果进行审核。 上线标注后的数据集 对标注后的数据集执行上线操作。 评估数据集(可选) 创建数据集评估标准 创建数据集评估标准。可以评估文本通顺性、图文内容一致性、视频清晰度等。 创建数据集评估任务 创建数据集质量评估任务,并基于评估标注对数据逐一评估其质量,评估后的数据可以用于模型训练。
type 是 String 存储类型,取值为obs。 data 是 Array of ObsStorageDto objects 输入数据的OBS信息。 表4 ObsStorageDto 参数 是否必选 参数类型 描述 bucket 是 String 输入数据的OBS桶名称。 path 是
参数类型 描述 type String 存储类型。 data Array of ObsStorageDto objects 输入数据的OBS信息。 表4 ObsStorageDto 参数 参数类型 描述 bucket String 输入数据的OBS桶名称。 path String 初始场数据的存放路径。
导入数据至盘古平台 数据集是一组用于处理和分析的相关数据样本。存储在OBS服务中的数据或本地数据导入ModelArts Studio大模型开发平台后,将以数据集的形式进行统一管理。 用户将数据导入至平台后,这些数据会生成一个“原始数据集”,用于对导入的数据进行集中管理和进一步操作。
数据获取:数据获取是数据工程的第一步,涉及从不同来源和格式的数据导入到平台。ModelArts Studio大模型开发平台提供多种高效灵活的数据接入方式,支持本地上传、通过OBS服务将数据导入平台。平台支持的多种数据类型包括文本、图片、视频等,能够满足不同行业和业务需求的多样化数据接入方式。用户还可以根据业务需求上
管理盘古数据资产 数据资产介绍 用户发布的数据集会被纳入数据资产,集中存储在空间资产中。平台为数据资产提供了一系列管理功能,包括查看数据集的详细信息、追踪操作记录、以及数据集的删除管理等。这不仅便于用户对已发布数据集的集中管理,还可帮助用户了解每个数据集的使用情况,从而简化数据资
在平台中,空间资产指的是存储在工作空间中的所有资源,包括数据资产和模型资产。这些资产是用户在平台上进行开发和管理的基础,集中存储和统一管理的方式有助于提升操作效率,并确保资源的规范性与安全性。 数据资产:数据资产是指用户在平台上发布的所有数据集。这些数据集会被存储在数据资产中,用户可
图片+Caption指的是一张图片和与之相关的文字描述,Caption是对图片内容的简短说明或解释,帮助人们理解图片所表达的信息。 图片:图片以tar包格式存储,可以多个tar包。tar包存储原始的图片,每张图片命名要求唯一(如abc.jpg)。 Caption:jsonl格式,图片描述jsonl文件放在最外层目