检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
处理ModelArts数据集中的数据 数据处理场景介绍 创建ModelArts数据校验任务 创建ModelArts数据清洗任务 创建ModelArts数据选择任务 创建ModelArts数据增强任务 管理和查看数据处理任务 父主题: 数据准备与处理
标注结果存储在哪里? ModelArts管理控制台,提供了数据可视化能力,您可以在控制台中查看详细数据以及标注信息。如需了解标注结果的存储路径,请参见如下说明。 背景说明 针对ModelArts中的数据集,在创建数据集时,需指定“数据集输入位置”和“数据集输出位置”。
准备预测分析数据 使用ModelArts自动学习构建预测分析模型时,您需要将数据上传至对象存储服务(OBS)中。OBS桶需要与ModelArts在同一区域,例如OBS桶区域为“北京四”时,必须保证ModelArts管理控制台区域也在“北京四”区域,否则会导致无法获取到相关数据。
如何上传数据至OBS? 使用ModelArts进行AI模型开发时,您需要将数据上传至对象存储服务(OBS)桶中。您可以登录OBS管理控制台创建OBS桶,并在您创建的OBS桶中创建文件夹,然后再进行数据的上传,OBS上传数据的详细操作请参见《对象存储服务快速入门》。
按照存储费用结算,那么数据存储到OBS的费用计算如下: 存储费用:数据管理模块的数据通过对象存储服务(OBS)上传或导出,存储计费按照OBS的计费规则。具体费用可参见对象存储价格详情。 综上,数据管理的费用 = 存储费用 父主题: 计费项
图1 从DWS导入数据 集群名称:系统自动将当前账号下的DWS集群展现在列表中,您可以在下拉框中选择您所需的DWS集群。 数据库名称:根据选择的DWS集群,填写数据所在的数据库名称。 表名称:根据选择的数据库,填写数据所在的表。 用户名:输入DWS集群管理员用户的用户名。
数据集输出位置 选择表格数据存储路径(OBS路径),此位置会存放由数据源导入的数据。此位置不能和OBS数据源中的文件路径相同或为其子目录。 创建表格数据集后,在存储路径下会自动生成以下4个目录。
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。
从DLI导入数据到ModelArts数据集 表格数据集支持从DLI导入数据。 从DLI导入数据,用户需要选择DLI队列、数据库和表名称。所选择的表的schema(列名和类型)需与数据集一致,支持自动获取所选择表的schema。DLI的详细功能说明,请参考DLI用户指南。
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。
旧版数据集中的数据是否会被清理? 旧版数据集中创建的数据不会被清理,旧版数据集中会自动关联一个数据标注任务。 但是在新版数据集中创建的数据,在旧版的数据集列表不会展示。 父主题: Standard数据管理
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。
从OBS导入数据到ModelArts数据集 从OBS导入数据到数据集场景介绍 从OBS目录导入数据到数据集 从Manifest文件导入数据到数据集 从OBS目录导入数据规范说明 从Manifest文件导入规范说明 父主题: 导入数据到ModelArts数据集
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。
带EVS存储的Notebook实例 JupyterLab文件默认存储路径,为创建Notebook实例时,系统自动分配的EVS空间。 在文件列表的所有文件读写操作都是基于所选择的EVS下的内容操作的。使用EVS类型的挂载,可将大数据挂载至“~/work”目录下。 父主题: 数据存储
SFS Turbo HPC型支持和OBS数据联动,您可以通过SFS Turbo HPC型文件系统来加速对OBS对象存储中的数据访问,并将生成的结果数据异步持久化到OBS对象存储中长期低成本保存。
标注结果存储在哪里? 如何将标注结果下载至本地? 团队标注时,为什么团队成员收不到邮件? 可以两个账号同时进行一个数据集的标注吗? 团队标注的数据分配机制是什么? 标注过程中,已经分配标注任务后,能否将一个labeler从标注任务中删除?删除后对标注结果有什么影响?
更新数据集 更新数据集的名称和描述信息。
大量数据文件,训练过程中读取数据效率低? 当数据集存在较多数据文件(即海量小文件),数据存储在OBS中,训练过程需反复从OBS中读取文件,导致训练过程一直在等待文件读取,效率低。 解决方法 建议将海量小文件,在本地压缩打包。例如打包成.zip格式。