检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。 用于训练的文本,至少有2种以上的分类,每种分类样本数据数不少20行。 创建数据集 数据准备完成后,需要创建相应项目
使用MoXing复制数据报错 问题现象 调用moxing.file.copy_parallel()将文件从开发环境的OBS桶中复制到其他OBS桶里,但是桶内没有出现目标文件。 使用MoXing复制数据不成功,出现报错。如: ModelArts开发环境使用MoXing复制OBS数据报错:keyError:
数据集版本管理 查询数据集版本列表 创建数据集版本 查询数据集版本详情 删除数据集版本 父主题: 数据管理
场景介绍及环境准备 场景介绍 DiT(Diffusion Transformers)模型是一种将Transformer架构引入扩散模型的新方法。传统的扩散模型通常使用U-Net架构,而DiT模型则用Transformer替代了U-Net,处理图像生成和去噪等任务。核心思想是通过Transf
version_format 否 String 数据集版本格式。可选值如下: Default:默认格式 CarbonData:Carbon格式(仅表格数据集支持) CSV:CSV格式 version_id 否 String 数据集版本ID。当导出数据集某一版本的数据时,需要指定该参数。 with_column_header
查询数据处理的算法类别 功能介绍 查询数据处理的算法类别。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/processor-tasks/items
用户项目ID。获取方法请参见获取项目ID和名称。 task_id 是 String 数据处理任务ID。 version_id 是 String 数据处理任务的版本ID。 请求参数 无 响应参数 无 请求示例 停止数据处理任务的版本 POST https://{endpoint}/v2/{p
步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 步骤二 修改训练Yaml配置文件
管理AI Gallery数据集 编辑数据集介绍 资产发布上架后,准确、完整的资产介绍有助于提升资产的排序位置和访问量,能更好的支撑用户使用该资产。 在数据集详情页,选择“数据集介绍”页签,单击右侧“编辑介绍”。 编辑数据集基础设置和数据集描述。 表1 数据集介绍的参数说明 参数名称
dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 version_id 是 String 数据集版本ID。 请求参数 无 响应参数 无 请求示例 删除数据集标注版本 DELETE https
Schema列表。 status Integer 数据集状态。当前可选值: 0:数据集创建中 1:数据集正常 2:数据集删除中 3:数据集已删除 4:数据集异常 5:数据集同步中 6:数据集发布中 7:数据集版本切换中 8:数据集导入中 third_path String 第三方路径。
创建OBS桶用于ModelArts存储数据 由于ModelArts本身没有数据存储的功能,ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。 AI开发过程中的输入数据、输出数据、中间缓存数据都可以在
项目创建完成后,将会自动跳转至新版自动学习页面,并开始运行,当数据标注节点的状态变为“等待操作”时,需要手动进行确认数据集中的数据标注情况,也可以对数据集中的数据进行标签的修改,数据的增加或删减。 图1 数据标注节点状态 图片标注 在新版自动学习页面单击“实例详情”按钮,前往数据标注页面。单击任意一张图片,进入图片标注界面。
标注文本分类数据 项目创建完成后,将会自动跳转至新版自动学习页面,并开始运行,当数据标注节点的状态变为“等待操作”时,需要手动进行确认数据集中的数据标注情况,也可以对数据集中的数据进行标签的修改,数据的增加或删减。 图1 数据标注节点状态 双击“数据标注”节点,单击实例详情按钮,打开数据标注页面。
“确认”,完成难例确认。 将数据集中的数据标注为难例 针对标注作业中,已标注或未标注数据,也可以将图片数据标注为难例。标注为难例的数据,对后续模型训练中,通过内置规则提升模型精度。 登录ModelArts管理控制台,在左侧菜单栏中选择“数据准备>数据标注”,单击“我创建的”页签可查看所有作业列表。
通过人工标注方式标注数据 创建ModelArts人工标注作业 人工标注图片数据 人工标注文本数据 人工标注音频数据 人工标注视频数据 管理标注数据 父主题: 标注ModelArts数据集中的数据
数据管理权限 表1 数据集管理的细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 查询数据集列表 GET /v2/{project_id}/datasets modelarts:dataset:list - √ √ 创建数据集 POST /v2/{project_id}/datasets
查询数据集版本列表 查询数据集的版本列表。 dataset.list_versions() 示例代码 查询数据集版本列表 from modelarts.session import Session from modelarts.dataset import Dataset session
复制数据至容器中空间不足 问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致数据无法复制至容器中。 OSError:[Errno 28] No space left on device 原因分析 数据下载至容器的位置空间不足。 处理方法 请排查是否将数据下载至“
提供了简洁易用的管理控制台,包含自动学习、数据管理、开发环境、模型训练、模型管理、部署上线等端到端的AI开发工具链,实现AI全流程生命周期管理。 面向有AI开发平台诉求的用户。 ModelArts MaaS 提供端到端的大模型生产工具链和昇腾算力资源,并预置了当前主流的第三方开源大模型。支持大模型数据生产、微调、提示词工程、应用编排等功能。