AI开发平台MODELARTS-数据处理场景介绍
数据处理场景介绍

数据处理功能仅在以下Region支持:华北-北京四、华北-北京一、华东-上海一、华南-广州。
ModelArts平台提供的数据处理功能,基本目的是从大量的、杂乱无章的、难以理解的数据中抽取或者生成对某些特定的人们来说是有价值、有意义的数据。当数据采集和接入之后,数据一般是不能直接满足训练要求的。为了保障数据质量,以免对后续操作(如数据标注、模型训练等)带来负面影响,开发过程通常需要进行数据处理。
常见的数据处理类型有以下四种:
- 数据校验:通常数据采集后需要进行校验,保证数据合法。
数据校验是指对数据可用性的基本判断和验证的过程。通常,用户采集的数据或多或少都会有很多格式问题,无法被进一步处理。以图像识别为例,用户经常会从网上找一些图片用于训练,但是其质量难以保证,有可能图片的名字、路径、后缀名都不满足训练算法的要求;图片也可能有部分损坏,造成无法解码、无法被算法处理的情况。因此,数据校验非常重要,可以帮助人工智能开发者提前发现数据问题,有效防止数据噪声造成的算法精度下降或者训练失败问题。
- 数据清洗:数据清洗是指对数据进行去噪、纠错或补全的过程。
数据清洗是在数据校验的基础上,对数据进行一致性检查,处理一些无效值。例如在深度学习领域,可以根据用户输入的正样本和负样本,对数据进行清洗,保留用户想要的类别,去除用户不想要的类别。
- 数据选择:数据选择一般是指从全量数据中选择数据子集的过程。
数据可以通过相似度或者深度学习算法进行选择。数据选择可以避免人工采集图片过程中引入的重复图片、相似图片等问题;在一批输入旧模型的推理数据中,通过内置规则的数据选择可以进一步提升旧模型精度。
- 数据增强:
数据扩增通过简单的数据扩增例如缩放、裁剪、变换、合成等操作直接或间接的方式增加数据量。
数据生成应用相关深度学习模型,通过对原数据集进行学习,训练生成新的数据集的方式增加数据量。
数据域迁移应用相关深度学习模型,通过对原域和目标域数据集进行学习,训练生成原域向目标域迁移的数据。
- TMS开发_金蝶TMS系统_TMS技术系统_信息化管理_视频
- ModelArts是什么_AI开发平台_ModelArts功能
- 华为云数据处理技术_数据管理平台数据工坊_什么是数据处理
- ModelArts计费说明_计费简介_ModelArts怎么计费
- ModelArts Workflow_什么是Workflow_工作流
- 媒体处理功能_音视频转码_多媒体数据处理服务
- DWS产品介绍_DWS产品优势_DWS功能_DWS使用场景_DWS是什么
- 数据转发至函数工作流_数据处理_FunctionGraph处理流数据
- GaussDB介绍_GaussDB数据库介绍_高斯数据库介绍-华为云
- 华为云资料 2021年 4月刊