检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据管理 数据集管理 数据集版本管理 样本管理 导入任务管理 导出任务管理 Manifest管理 标注任务管理
ModelArts Standard数据管理模块重构中,当前能力不做演进,将结合大模型时代能力进行全新升级,敬请期待。 ModelArts Standard数据管理支持多维度数据管理能力 数据集管理:提供数据集创建、数据预览、数据集版本管理等能力 数据标注:提供在线标注能力,包含图像分类、
从Manifest文件导入数据到数据集 前提条件 已存在创建完成的数据集。 准备需要导入的数据,具体可参见从Manifest文件导入规范说明。 需导入的数据,已存储至OBS中。Manifest文件也需要存储至OBS。 确保数据存储的OBS桶与ModelArts在同一区域,并确保用户具有OBS桶的操作权限。
数据集管理 查询数据集列表 创建数据集 查询数据集详情 更新数据集 删除数据集 父主题: 数据管理
ModelArts是面向AI开发者的一站式开发平台,提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及模型按需部署能力,帮助用户快速创建和部署AI应用,管理全周期AI工作流。 “一站式”是指AI开发的各个环节,包括数据处理、算法开发、模型训练、创建AI应用、AI应用部署
数据保护技术 ModelArts通过多种数据保护手段和特性,保障存储在ModelArts中的数据安全可靠。 数据保护手段 说明 静态数据保护 对于AI Gallery收集的用户个人信息中的敏感信息,如用户邮箱和手机号,AI Gallery在数据库中做了加密处理。其中,加密算法采用了国际通用的AES算法。
下载数据 在AI Gallery中,您可以下载满足业务需要的数据集。 前提条件 注册并登录华为云,且创建好OBS桶用于存储数据。 下载数据集 登录“AI Gallery”。 选择“资产集市 > 数据集”,进入数据页面,该页面展示了所有共享的数据集。 搜索业务所需的数据集,请参见查找和收藏资产。
稳定安全的算力底座,极快至简的模型训练 支持万节点计算集群管理 大规模分布式训练能力,加速大模型研发 提供高性价比国产算力 多年软硬件经验沉淀,AI场景极致优化 加速套件,训练、推理、数据访问多维度加速 一站式端到端生产工具链,一致性开发体验 开“箱”即用,涵盖AI开发全流程,包含数据处理、模型开发、训练、管理、部署功能,可灵活使用其中一个或多个功能。
计费说明 ModelArts是面向AI开发者的一站式开发平台,提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力,帮助用户快速创建和部署AI应用,管理全周期AI工作流。 ModelArts服务的计费方式简单、灵活,您既可以选择按实际使用
如果是多个节点复制不同步,并且没有barrier的话导致的超时,可以在复制数据之前,先进行torch.distributed.init_process_group(),然后再根据local_rank()==0去复制数据,之后再调用torch.distributed.barrier()等
来源 选择“对象存储服务(OBS)”。 单个数据集最多支持20000个文件,总大小不超过30G。 OBS区域 选择数据所在OBS桶的存储区域,以控制台实际可选值为准。 存储位置 选择待发布数据集所在对象存储服务(OBS)的路径。 数据类型 至少选择一个数据集类型的标签。 可选
Broken pipe” 问题现象 训练作业在使用MoXing复制数据时,日志中出现报错“BrokenPipeError: [Errno xx] Broken pipe”。 原因分析 出现该问题的可能原因如下: 在大规模分布式作业上,每个节点都在复制同一个桶的文件,导致OBS桶限流。 OBS
创建项目的时候,数据集输入位置没有可选数据 可能原因 创建的OBS桶与创建项目不在同一个区域。 账号没有配置全局授权。 OBS桶里的数据格式不符合要求。 解决方法 查看ModelArts创建的项目与创建的OBS桶是否在同一区域。 查看创建的OBS桶所在区域。 登录OBS管理控制台。
如何使用pandas库处理OBS桶中的数据? 参考下载OBS文件到Notebook中的指导,将OBS中的数据下载至Notebook本地处理。 参考pandas用户指南处理pandas数据。 父主题: 数据存储
导出ModelArts数据集中的数据到OBS 针对数据集中的数据,用户可以选中部分数据或者通过条件筛选出需要的数据,当需要将数据集中的数据存储至OBS用于后续导出使用时,可通过此种方式导出成新的数据集。用户可以通过任务历史查看数据导出的历史记录。 目前只有“图像分类”、“物体检测
支持训练数据使用SFS Turbo文件系统进行数据挂载,训练作业产生的中间和结果等数据可以直接高速写入到SFS Turbo缓存中,并可被下游业务环节继续读取并处理,结果数据可以异步方式导出到关联的OBS对象存储中进行长期低成本存储,从而加速训练场景下加速OBS对象存储中的数据访问 ModelArts
导入数据集失败 导入数据集失败可能原因为OBS桶类型选择错误,请您选择标准存储类型的桶导入。 父主题: Standard数据管理
同步数据集 功能介绍 从数据集输入位置同步数据至数据集,包含样本及标注信息。文本类数据集不支持此操作。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v
从OBS目录导入数据规范说明 导入数据集时,使用存储在OBS的数据时,数据的存储目录以及文件名称需满足ModelArts的规范要求。 当前只有“图像分类”、“物体检测”、“图像分割”、“文本分类”和“声音分类”标注类型支持按标注格式导入。 其中,“表格”类型的数据集,支持从OBS
使用OBS客户端上传文件的操作指导:上传文件 方法一:在Notebook中通过Moxing上传下载OBS文件 MoXing是ModelArts自研的分布式训练加速框架,构建于开源的深度学习引擎TensorFlow、PyTorch等之上,使用MoXing API可让模型代码的编写更加简单、高效。