华为云用户手册

  • 导入方式 OBS导入数据方式分为“OBS目录”和“Manifest文件”两种。 OBS目录:指需要导入的数据集已提前存储至OBS目录中。此时需选择用户具备权限的OBS路径,且OBS路径内的目录结构需满足规范,详细规范请参见从OBS目录导入数据规范说明。当前只有“图像分类”、“物体检测”、“表格”、“文本分类”和“声音分类”类型的数据集,支持从OBS目录导入数据。其他类型只支持Manifest文件导入数据集的方式。 Manifest文件:指数据集为Manifest文件格式,Manifest文件定义标注对象和标注内容的对应关系,且Manifest文件已上传至OBS中。Manifest文件的规范请参见从Manifest文件导入规范说明。 导入“物体检测”类型数据集前,您需要保证标注文件的标注范围不超过原始图片大小,否则可能存在导入失败的情况。 表1 不同类型数据集支持的导入方式 数据集类型 标注类型 OBS目录导入 Manifest文件导入 图片 图像分类 支持 可以导入未标注或已标注数据 已标注数据格式规范:图像分类 支持 可以导入未标注或已标注数据 已标注数据格式规范:图像分类 物体检测 支持 可以导入未标注或已标注数据 已标注数据格式规范:物体检测 支持 可以导入未标注或已标注数据 已标注数据格式规范:物体检测 图像分割 支持 可以导入未标注或已标注数据 已标注数据格式规范:图像分割 支持 可以导入未标注或已标注数据 已标注数据格式规范:图像分割 音频 声音分类 支持 导入的是未标注或已标注数据 格式规范:声音分类 支持 可以导入未标注或已标注数据 已标注数据格式规范:声音分类 语音内容 支持 导入的是未标注数据 支持 可以导入未标注或已标注数据 已标注数据格式规范:语音内容 语音分割 支持 导入的是未标注数据 支持 可以导入未标注或已标注数据 已标注数据格式规范:语音分割 文本 文本分类 支持 导入的是未标注或已标注数据 已标注数据格式规范:文本分类 支持 可以导入未标注或已标注数据 已标注数据格式规范:文本分类 命名实体 支持 导入的是未标注数据 支持 可以导入未标注或已标注数据 已标注数据格式规范:文本命名实体 文本三元组 支持 导入的是未标注数据 支持 可以导入未标注或已标注数据 已标注数据格式规范:文本三元组 视频 视频 支持 导入的是未标注数据 支持 可以导入未标注或已标注数据 已标注数据格式规范:视频标注 其他 自由格式 支持 导入的是未标注数据 - 表格 表格 支持 还支持从DWS、 DLI MRS 导入数据。 格式规范:表格 -
  • 规格限制 除表格类型之外的数据集(如视频、文本、音频等),单个数据集的最大样本数量限制:1000000,最大标签数量限制:10000。 除图片类型之外的数据集(如视频、文本、音频等),单个样本大小限制:5GB。 针对图片类数据集(物体检测、图像分类、图像分割),单个图片大小限制:25MB。 单个manifest文件大小限制:5GB。 文本文件单行大小限制:100KB。 数据集标注结果文件大小限制:100MB。
  • 数据集的类型 当前ModelArts支持如下格式的数据集。 图片:对图像类数据进行处理,支持 .jpg、.png、.jpeg、.bmp四种图像格式,支持用户进行图像分类、物体检测、图像分割类型的标注。 音频:对音频类数据进行处理,支持.wav格式,支持用户进行声音分类、语音内容、语音分割三种类型的标注。 文本:对文本类数据进行处理,支持.txt、.csv格式,支持用户进行文本分类、命名实体、文本三元组三种类型的标注。 视频:对视频类数据进行处理,支持.mp4格式,支持用户进行视频标注。 自由格式:管理的数据可以为任意格式,目前不支持标注,适用于无需标注或开发者自行定义标注的场景。如果您的数据集需存在多种格式数据,或者您的数据格式不符合其他类型数据集时,可选择自由格式的数据集。 表格 表格:适合表格等结构化数据处理。数据格式支持csv。不支持标注,支持对部分表格数据进行预览,但是最多支持100条数据预览。
  • 不同类型数据集支持的功能列表 其中,不同类型的数据集支持不同的功能,如智能标注、团队标注等。详细信息参考表1。 表1 不同类型的数据集支持的功能 数据集类型 标注类型 创建数据集 导入数据 导出数据 发布数据集 修改数据集 管理版本 智能标注 团队标注 自动分组 数据特征 图片 图像分类 支持 支持 支持 支持 支持 支持 支持 支持 支持 支持 物体检测 支持 支持 支持 支持 支持 支持 支持 支持 支持 支持 图像分割 支持 支持 支持 支持 支持 支持 - - 支持 - 音频 声音分类 支持 支持 - 支持 支持 支持 - - - - 语音内容 支持 支持 - 支持 支持 支持 - - - - 语音分割 支持 支持 - 支持 支持 支持 - 支持 - - 文本 文本分类 支持 支持 - 支持 支持 支持 - 支持 - - 命名实体 支持 支持 - 支持 支持 支持 - 支持 - - 文本三元组 支持 支持 - 支持 支持 支持 - 支持 - - 视频 视频 支持 支持 - 支持 支持 支持 - - - - 自由格式 自由格式 支持 - _ 支持 支持 支持 - - - - 表格 表格 支持 支持 - 支持 支持 支持 - - - -
  • 启动团队标注任务 登录到console标注页面后在“我参与的”页签下,可查看到分配的标注任务,单击任务名称,可进入标注页面。不同类型的标注作业,标注方式不同,详细请参见: 标注图片(图像分类) 标注图片(物体检测) 标注文本(文本分类) 标注文本(命名实体) 标注文本(文本三元组) 标注音频(语音分割) 在标注页面中,每个成员可查看“未标注”、“待确认”、“已驳回”、“待审核”、“审核通过”、“验收通过”的图片信息。请及时关注管理员驳回以及待修正的图片。 当团队标注任务中,分配了Reviewer角色,则需要对标注结果进行审核,审核完成后,再提交给管理员验收。 图7 成员标注平台
  • 团队标注使用流程 数据标注任务中,一般由一个人完成,但是针对数据集较大时,需要多人协助完成。ModelArts提供了团队标注功能,可以由多人组成一个标注团队,针对同一个数据集进行标注管理。 团队标注功能当前仅支持“图像分类”、“物体检测”、“文本分类”、“命名实体”、“文本三元组”、“语音分割”类型的数据集。 针对启用团队标注功能的数据标注任务,支持创建团队标注任务,将标注任务指派给不同的团队,由多人完成标注任务。同时,在成员进行数据标注过程中,支持发起验收、继续验收以及查看验收报告等功能。 团队标注功能是以团队为单位进行管理,数据集启用团队标注功能时,必须指定一个团队。一个团队可以添加多个成员。 一个账号最多可添加10个团队。 如果数据集需要启用团队标注功能,当前账号至少拥有一个团队。如果没有,请执行添加团队操作添加。 父主题: 通过团队标注方式标注数据
  • 标注视频 标注作业详情页中,展示了此数据集中“未标注”、“已标注”和“全部”的视频。 在“未标注”页签左侧视频列表中,单击目标视频文件,打开标注页面。 在标注页面中,播放视频,当视频播放至待标注时间时,单击进度条左侧的暂停按钮,将视频暂停至某一帧对应的画面。 在上方区域选择标注框,默认为矩形框。使用鼠标在视频画面中框出目标,然后在弹出的添加标签文本框中,直接输入新的标签名,在文本框前面选中标签颜色,单击“添加”完成1个物体的标注。如果已存在标签,从下拉列表中选择已有的标签,然后单击“添加”完成标注。逐步此画面中所有物体所在位置,一帧对应的画面可添加多个标签。 支持的标注框与“物体检测”类型一致,详细描述请参见物体检测章节的表2。 图2 视频标注 上一帧对应的画面标注完成后,在进度条处单击播放按钮继续播放,在需要标注处暂停,然后重复执行步骤3完成整个视频的标注。 单击界面右上角的“标注列表”,在“当前文件标签”的详情页将呈现当前视频带标注的时间点。 图3 当前文件标签信息 单击页面左上角“返回数据标注预览”,页面将自动返回标注作业详情页面,同时,标注好的视频将呈现在“已标注”页签下。
  • 标注音频(声音分类) 标注作业详情页中,展示了此标注作业中“未标注”和“已标注”的音频,默认显示“未标注”的音频列表。单击音频左侧,即可进行音频的试听。 在“未标注”页签,勾选需进行标注的音频。 手工点选:在音频列表中,单击音频,当右上角出现蓝色勾选框时,表示已勾选。可勾选同类别的多个音频,一起添加标签。 批量选中:如果音频列表的当前页,所有音频属于一种类型,可以在列表的右上角单击“选择当前页”,则当前页面所有的音频将选中。 添加标签。 在右侧的“添加标签”区域中,单击“标签”下侧的文本框设置标签。 方式一(已存在标签):单击“标签”下方的文本框,在快捷键下拉列表中选择快捷键,然后在标签文本输入框中选择已有的标签名称,然后单击“确定”。 方式二(新增标签):在“标签”下方的文本框中,在快捷键下拉列表中选择快捷键,然后在标签文本输入框中输入新的标签名称,然后单击“确定”。 选中的音频将被自动移动至“已标注”页签,且在“未标注”页签中,标签的信息也将随着标注步骤进行更新,如增加的标签名称、各标签对应的音频数量。 快捷键的使用说明:为标签指定快捷键后,当您选择一段音频后,在键盘中按快捷键,即可为此音频增加为此快捷键对应的标签。例如“aa”标签对应的快捷键是“1”,在数据标注过程中,选中1个或多个文件,按“1”,界面将提示是否需要将此文件标注为“aa”标签,单击确认即可完成标注。 快捷键对应的是标签,1个标签对应1个快捷键。不同的标签,不能指定为同一个快捷键。快捷键的使用,可以提升标注效率。 图2 添加音频标签
  • 标注音频(语音分割) 标注作业详情页中,展示了此标注作业中“未标注”和“已标注”的音频,默认显示“未标注”的音频列表。 在“未标注”页签左侧音频列表中,单击目标音频文件,在右侧的区域中出现音频,单击音频下方,即可进行音频播放。 根据播放内容,选取合适的音频段,在下方“语音内容”文本框中填写音频标签和内容。 图4 语音标签音频标注 输入内容后单击下方的“确认标注”按钮完成标注。音频将被自动移动至“已标注”页签。
  • 镜像二:conda3-ubuntu18.04 表13 conda3-ubuntu18.04镜像介绍 AI引擎框架 是否使用 GPU (CUDA 版本) URL 包含的依赖项 无 否 swr.{region_id}.myhuaweicloud.com/atelier/user_defined_base:ubuntu_18.04-x86_64-20221008154718-2b3e39c 例如: 华北-北京四 swr.cn-north-4.myhuaweicloud.com/atelier/user_defined_base:ubuntu_18.04-x86_64-20221008154718-2b3e39c 华东-上海一 swr.cn-east-3.myhuaweicloud.com/atelier/user_defined_base:ubuntu_18.04-x86_64-20221008154718-2b3e39c 华南-广州 swr.cn-south-1.myhuaweicloud.com/atelier/user_defined_base:ubuntu_18.04-x86_64-20221008154718-2b3e39c PyPI 程序包 Ubuntu 软件包 ipykernel 6.7.0 ipython 7.34.0 jupyter-client 7.4.9 ma-cli 1.2.3 matplotlib 3.5.2 modelarts 1.4.25 moxing-framework 2.1.6.879ab2f4 numpy 1.21.6 pandas 1.3.5 Pillow 9.5.0 pip 20.3.3 psutil 5.9.4 PyYAML 6.0 scipy 1.7.3 tornado 6.2 automake build-essential ca-certificates cmake cpp curl g++ gcc gfortran grep nginx python3 rpm tar unzip vim wget zip
  • 镜像一:tensorflow1.15-mindspore1.7.0-cann5.1.0-euler2.8-aarch64 表17 tensorflow1.15-mindspore1.7.0-cann5.1.0-euler2.8-aarch64镜像介绍 AI引擎框架 URL 包含的依赖项 Mindspore-Ascend 1.7.0 swr.{region_id}.myhuaweicloud.com/atelier/notebook2.0-mul-kernel-arm-ascend-cp37:5.0.1-c81-20220726 例如: 华北-北京四 swr.cn-north-4.myhuaweicloud.com/atelier/notebook2.0-mul-kernel-arm-ascend-cp37:5.0.1-c81-20220726 PyPI 程序包 Yum 软件包 mindspore-ascend 1.7.0 ipykernel 6.7.0 ipython 7.29.0 jupyter-client 7.0.6 ma-cli 1.2.3 matplotlib 3.1.2 modelarts 1.4.25 moxing-framework 2.0.0.rc2.4b57a67b numpy 1.17.5 pandas 1.1.3 Pillow 7.0.0 pip 21.2.4 psutil 5.7.0 PyYAML 5.3.1 scipy 1.5.4 scikit-learn 0.24.0 tornado 6.1 mindinsight 1.7.0 cmake cpp curl ffmpeg g++ gcc git grep python3 rpm tar unzip wget zip
  • 镜像三:mindspore1.2.0-cuda10.1-cudnn7-ubuntu18.04 表10 mindspore1.2.0-cuda10.1-cudnn7-ubuntu18.04镜像介绍 AI引擎框架 是否使用 GPU (CUDA 版本) URL 包含的依赖项 Mindspore-gpu 1.2.0 是 (cuda 10.1) swr.{region_id}.myhuaweicloud.com/atelier/mindspore_1_2_0:mindspore_1.2.0-py_3.7-cuda_10.1-ubuntu_18.04-x86_64-20220926104106-041ba2e 例如: 华北-北京四 swr.cn-north-4.myhuaweicloud.com/atelier/mindspore_1_2_0:mindspore_1.2.0-py_3.7-cuda_10.1-ubuntu_18.04-x86_64-20220926104106-041ba2e 华东-上海一 swr.cn-east-3.myhuaweicloud.com/atelier/mindspore_1_2_0:mindspore_1.2.0-py_3.7-cuda_10.1-ubuntu_18.04-x86_64-20220926104106-041ba2e 华南-广州 swr.cn-south-1.myhuaweicloud.com/atelier/mindspore_1_2_0:mindspore_1.2.0-py_3.7-cuda_10.1-ubuntu_18.04-x86_64-20220926104106-041ba2e PyPI 程序包 Ubuntu 软件包 mindspore-gpu 1.2.0 ipykernel 6.7.0 ipython 7.34.0 jupyter-client 7.4.6 ma-cli 1.2.3 matplotlib 3.5.1 modelarts 1.4.25 moxing-framework 2.1.0.5d9c87c8 numpy 1.19.5 pandas 1.1.5 Pillow 6.2.0 pip 21.0.1 psutil 5.8.0 PyYAML 5.1 scipy 1.5.2 scikit-learn 0.22.1 tornado 6.2 mindinsight 1.2.0 automake build-essential ca-certificates cmake cpp curl ffmpeg g++ gcc gfortran git git-lfs grep libcudnn7 libcudnn7-dev libjpeg-dev:amd64 libjpeg8-dev:amd64 openssh-client openssh-server nginx python3 rpm screen tar tmux unzip vim wget zip
  • 标注文本(文本三元组) 标注作业详情页中,展示了此标注作业中“未标注”和“已标注”的文本,默认显示“未标注”的文本列表。 在“未标注”页签文本列表中,页面左侧罗列“标注对象列表”。在列表中单击需标注的文本对象,选中相应文本内容,在页面呈现的实体类型列表中选择实体名称,完成实体标注。 图12 实体标注 在完成多个实体标注后,鼠标左键依次单击起始实体和终止实体,在呈现的关系类型列表中选择一个对应的关系类型,完成关系标注。 图13 关系标注 当所有的标注对象都已完成标注,单击页面下方“保存当前页”完成“未标注”列表的文本标注。 “文本三元组”类型的数据集,不支持在标注页面修改标签,需要进入“标签管理”页面,修改“实体标签”和“关系标签”。
  • 修改标签(文本三元组) 当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。 在标注作业详情页,单击“已标注”页签,在左侧文本列表中选中一行文本,右侧区域显示具体的标注信息。将鼠标移动至对应的实体标签或关系类型,单击鼠标右键,可删除此标注。单击鼠标左键,依次单击连接起始实体和终止实体,可增加关系类型,增加关系标注。 图14 在文本中修改标签 您也可以在单击页面下方的“删除当前项标签”按钮,删除选中文本对象中的所有标签。 图15 删除当前项标签
  • 标注文本(文本分类) 标注作业详情页中,展示了此标注作业中“未标注”和“已标注”的文本,默认显示“未标注”的文本列表。 在“未标注”页签文本列表中,页面左侧罗列“标注对象列表”。在列表中单击需标注的文本对象,选择右侧“标签集”中的标签进行标注。一个标注对象可添加多个标签。 以此类推,不断选中标注对象,并为其添加标签。 图4 文本分类标注 当所有的标注对象都已完成标注,单击页面下方“保存当前页”,完成“未标注”列表的文本标注。
  • 标注文本(命名实体) 标注作业详情页中,展示了此标注作业中“未标注”和“已标注”的文本,默认显示“未标注”的文本列表。 在“未标注”页签文本列表中,页面左侧罗列“标注对象列表”。在列表中单击需标注的文本对象,在右侧标签集下显示的文本内容中选中需要标注的部分,然后选择右侧“标签集”中的标签进行标注。 以此类推,不断选中标注对象,并为其添加标签。 图8 命名实体标注 单击页面下方“保存当前页”完成文本标注。
  • 标注图片(图像分割) 标注作业详情页中,展示了此标注作业中“全部”、“未标注”和“已标注”的图片,默认显示“未标注”的图片列表。 在“未标注”页签图片列表中,单击图片,自动跳转到标注页面。在标注页面,常用按钮的使用可参见表4。 选择标注方式。 在标注页面,上方工具栏提供了常用的表3及表4,系统默认的标注方式为多边形标注。选择多边形标注或极点标注。 标注第一张图片时,一旦选择其中一种,其他所有图片都需要使用此方式进行标注。 图6 工具栏 图7 工具栏 表3 标注方式 图标 使用说明 多边形。在标注对象所在范围内,鼠标左键单击完成一个点的标注,沿着物体的形状边缘,通过鼠标指定多个点,最终单击到第一个点的位置,由所有的点组成一个多边形形状。使得需标注的对象在此标注框内。 极点标注。在目标物体轮廓的最上、最左、最下、最右的位置分别标注四个极点,极点要在物体的轮廓上。系统将根据标注的极点推理出物体的轮廓。 表4 工具栏常用按钮 按钮图标 功能说明 撤销上一个操作。 重做上一个操作。 放大图片。 缩小图片。 删除当前图片中的所有标注框。 显示或隐藏标注框。只有在已标注图片中可使用此操作。 拖动,可将标注好的框拖动至其他位置,也可以选择框的边缘,更改框的大小。 复位,与上方拖动为同组操作,当执行了拖动后,可以单击复位按钮快速将标注框恢复为拖动前的形状和位置。 全屏显示标注的图片。 标注物体。 以极点标注为例。识别图片中的物体,单击左键分别定位物体的最上、最左、最下、最右的位置点。确定位置后,将弹出对话框,填入标签名称,单击确定添加物体的标签。确定后系统将自动推理出物体的轮廓。 完成一张图片标注后,可单击图片下方展开缩略图,查看图片列表,快速选中其他未标注的图片,然后在标注页面中执行标注操作。 图8 标注物体轮廓 单击页面上方“返回数据标注预览”查看标注信息,在弹框中单击“确定”保存当前标注并离开标注页面。 选中的图片被自动移动至“已标注”页签,且在“未标注”和“全部”页签中,标签的信息也将随着标注步骤进行更新,如增加的标签名称、标签对应的图片数量。
  • 标注图片(物体检测) 标注作业详情页中,展示了此数据集中“全部”“未标注”和“已标注”的图片,默认显示“未标注”的图片列表。 在“未标注”页签图片列表中,单击图片,自动跳转到标注页面。在标注页面,常用按钮的使用可参见表2。 在页面上方工具栏选择合适的标注图形,系统默认的标注图形为矩形。本示例使用矩形工具进行标注。 页面左侧可以选择多种形状对图片进行标注。标注第一张图片时,一旦选择其中一种,其他图片默认使用此形状进行标注,用户可以根据自己需求再进行切换。 表1 支持的标注框 图标 使用说明 矩形。也可使用快捷键 【1】。鼠标单击标注对象左上角边缘位置,界面将出现矩形框,移动鼠标使得矩形框覆盖标注对象,然后单击完成标注。 多边形。也可使用快捷键【2】。在标注对象所在范围内,鼠标左键单击完成一个点的标注,沿着物体的形状边缘,通过鼠标指定多个点,最终单击到第一个点的位置,由所有的点组成一个多边形形状。使得需标注的对象在此标注框内。 圆形。也可使用快捷键【3】。在标注对象中,选择物体的中心点位置,单击鼠标确定圆心,然后移动鼠标,使得圆形框覆盖标注对象,然后再单击鼠标完成标注。 直线。也可使用快捷键【4】。在标注对象中,选择物体的起始点,单击鼠标确定直线的起始点,然后使得直线覆盖标注对象,然后再单击鼠标完成标注。 虚线。也可使用快捷键【5】。在标注对象中,选择物体的起始点,单击鼠标确定虚线的起始点,然后使得虚线覆盖标注对象,然后再单击鼠标完成标注。 点。也可使用快捷键【6】。单击图片中的物体所在位置,即可完成点的标注。 在弹出的添加标签文本框中,直接输入新的标签名,在文本框前面选中标签颜色,然后单击“添加”。如果已存在标签,从下拉列表中选择已有的标签,单击“添加”。 逐步标注图片中所有物体所在位置,一张图片可添加多个标签。完成一张图片标注后,可单击图片右上角来切换下一张(也可使用快捷键【D】直接切换),快速选中其他未标注的图片,然后在标注页面中执行标注操作。 图5 添加物体检测标签 单击页面上方“返回数据标注预览”查看标注信息,在弹框中单击“确定”保存当前标注并离开标注页面。 选中的图片被自动移动至“已标注”页签,且在“未标注”和“全部”页签中,标签的信息也将随着标注步骤进行更新,如增加的标签名称、标签对应的图片数量。 表2 标注界面的常用按钮 按钮图标 功能说明 撤销上一个操作。也可使用快捷键【Ctrl+Z】 重做上一个操作。也可使用快捷键【Ctrl+Shift+Z】 放大图片。也可以使用滚轮进行放大。 缩小图片。也可以使用滚轮进行缩小。 删除当前图片中的所有标注框。也可使用快捷键【Shift+Delete】 显示或隐藏标注框。只有在已标注图片中可使用此操作。也可使用快捷键【Shift+H】 拖动,可将标注好的框拖动至其他位置,也可以选择框的边缘,更改框的大小。也可使用【X+鼠标左键】 复位,与上方拖动为同组操作,当执行了拖动后,可以单击复位按钮快速将标注框恢复为拖动前的形状和位置。也可使用快捷键【Esc】
  • 文本(文本分类、命名实体、文本三元组) 图4 文本分类、命名实体、文本三元组类型的参数 表3 文本类型标注作业的详细参数 参数名称 说明 数据集名称 选择支持当前标注类型的数据集。 添加标签集(文本分类、命名实体) 设置标签名称:在标签名称文本框中,输入标签名称。长度为1~1024字符。 添加标签:单击“添加标签”可增加多个标签。 设置标签颜色:在每个标签右侧的标签颜色区域下,可在色板中选择颜色,或者直接输入十六进制颜色码进行设置。 添加标签集(文本三元组) 针对“文本三元组”类型的数据集,需要设置实体标签和关系标签。 实体标签:需设置标签名以及标签颜色。可在颜色区域右侧单击加号增加多个标签。 关系标签:关系标签为两个实体之间的关系。需设置起始实体和终止实体,您需要先添加至少2个实体标签后,再添加关系标签。 启用团队标注 选择是否启用团队标注。 启用团队标注功能,需填写对应的团队标注任务“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务。 在启用“团队标注”前,需确保您已经在“标注团队”管理页面,添加相应的团队以及成员。如果没有标注团队,可直接从界面链接跳转至“标注团队”页面,添加您的团队并为其添加成员。详细指导请参见创建和管理团队。 启用团队标注功能的数据集,在创建完成后,可以在“标注类型”中看到“团队标注”的标识。
  • 音频(声音分类、语音内容、语音分割) 图3 声音分类、语音内容、语音分割类型的参数 表2 音频类型标注作业的详细参数 参数名称 说明 数据集名称 选择支持当前标注类型的数据集。 添加标签集(声音分类) “声音分类”类型的标注作业可以添加标签集。 设置标签名称:在标签名称文本框中,长度为1~1024字符。 添加标签:单击“添加标签”可增加多个标签。 标签管理(语音分割) “语音分割”类型的标注作业,支持标签管理。 单标签 单标签适用于一段音频标注只有一种类别的音频,通常标注一个标签。 设置标签名称:在“标签名”列输入标签名称。长度为1~1024字符。 设置标签颜色:在“标签颜色”列设置标签颜色。可在色板中选择颜色,或者直接输入十六进制颜色码进行设置。 多标签 多标签适用于多维度标注,例如在一段音频标注噪音与人说话的声音两种类别,其中说话的声音还可以标注为不同人的声音。单击“新建标签类别”可添加多个标签类别,一个标签类别可以包含多个标签。“标签类别”和“标签名”只能是中文、字母、数字、英文句号、下划线或中划线组成的合法字符串。长度为1~256字符。 设置标签类别:在“标签类别”输入标签类别的名称。 设置标签名称:在“标签名”输入标签名称。 添加标签:单击“添加标签”可增加多个标签。 启用语音内容标注(语音分割) 仅“语音分割”类型数据集支持设置,默认关闭。如果启用此功能,支持针对语音内容进行标注。 启用团队标注(语音分割) 仅“语音分割”类型支持团队标注,因此选择创建语音分割类型时,支持设置是否启用团队标注。 启用团队标注功能,需填写对应的团队标注任务“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务。 在启用“团队标注”前,需确保您已经在“标注团队”管理页面,添加相应的团队以及成员。如果没有标注团队,可直接从界面链接跳转至“标注团队”页面,添加您的团队并为其添加成员。详细指导请参见创建和管理团队。 启用团队标注功能的数据集,在创建完成后,可以在“标注类型”中看到“团队标注”的标识。
  • 图片(图像分类、物体检测、图像分割) 图2 图像分类和物体检测类型的参数 表1 图片类型标注作业的详细参数 参数名称 说明 数据集名称 选择支持当前标注类型的数据集。 添加标签集 设置标签名称:在标签名称文本框中,输入标签名称。长度为1~1024字符。 添加标签:单击“添加标签”可增加多个标签。 设置标签颜色:“物体检测”和“图像分割”类型标注作业需设置此参数。在每个标签右侧的标签颜色区域下,可在色板中选择颜色,或者直接输入十六进制颜色码进行设置。 设置标签属性:针对“物体检测”类型标注作业,在设置完标签颜色后,可在右侧单击加号,增加对应的标签属性。标签属性用于区分同一标签物体的不同属性。例如,黄色小猫、黑色小猫。标签为cat,颜色为不同的标签属性。 启用团队标注 选择是否启用团队标注。图像分割暂不支持团队标注,当选择图像分割类型时,界面不显示此参数。 启用团队标注功能,需填写对应的团队标注任务“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务。 在启用“团队标注”前,需确保您已经在“标注团队”管理页面,添加相应的团队以及成员。如果没有标注团队,可直接从界面链接跳转至“标注团队”页面,添加您的团队并为其添加成员。详细指导请参见创建和管理团队。 启用团队标注功能的数据集,在创建完成后,可以在“标注类型”中看到“团队标注”的标识。
  • 标注作业支持的数据类型 对于不同类型的数据集,用户可以选择不同的标注任务,当前ModelArts支持如下类型的标注任务。 图片 图像分类:识别一张图片中是否包含某种物体。 物体检测:识别出图片中每个物体的位置及类别。 图像分割:根据图片中的物体划分出不同区域。 音频 声音分类:对声音进行分类。 语音内容:对语音内容进行标注。 语音分割:对语音进行分段标注。 文本 文本分类:对文本的内容按照标签进行分类处理。 命名实体:针对文本中的实体片段进行标注,如“时间”、“地点”等。 文本三元组:针对文本中的实体片段和实体之间的关系进行标注。 视频 视频标注:识别出视频中每个物体的位置及分类。目前仅支持mp4格式。
  • 人工标注 对于不同类型的数据,用户可以选择不同的标注类型。当前ModelArts支持如下类型的标注作业: 图片 图像分类:识别一张图片中是否包含某种物体。 物体检测:识别出图片中每个物体的位置及类别。 图像分割:根据图片中的物体划分出不同区域。 音频 声音分类:对声音进行分类。 语音内容:对语音内容进行标注。 语音分割:对语音进行分段标注。 文本 文本分类:对文本的内容按照标签进行分类处理。 命名实体:针对文本中的实体片段进行标注,如“时间”、“地点”等。 文本三元组:针对文本中的实体片段和实体之间的关系进行标注。 视频 视频标注:识别出视频中每个物体的位置及分类。目前仅支持mp4格式。
  • 不同类型数据集支持的功能列表 其中,不同类型的数据集,支持不同的功能,详细信息请参见表1。 表1 不同类型数据集支持的功能 数据集类型 标注类型 人工标注 智能标注 团队标注 图片 图像分类 支持 支持 支持 物体检测 支持 支持 支持 图像分割 支持 - - 音频 声音分类 支持 - - 语音内容 支持 - - 语音分割 支持 - 支持 文本 文本分类 支持 - 支持 命名实体 支持 - 支持 文本三元组 支持 - 支持 视频 视频标注 支持 - - 自由格式 - - - - 表格 - - - -
  • 数据准备使用流程 ModelArts是面向AI开发者的一站式开发平台,能够支撑开发者从数据到AI应用的全流程开发过程,包含数据处理、算法开发、模型训练、模型部署等操作。并且提供AI Gallery功能,能够在市场内与其他开发者分享数据、算法、模型等。为了能帮用户快速准备大量高质量的数据,ModelArts数据管理提供了全流程的数据准备、数据处理和数据标注能力。 图1 ModelArts数据准备全流程 ModelArts数据管理为用户准备高质量的AI数据提供了以下主要能力: 解决用户获取数据的问题。 用户可在AI Gallery上一键下载需要的数据资源到ModelArts数据管理。 提供多种数据接入方式,支持用户从OBS,MRS,DLI以及DWS等服务导入用户的数据。 提供18+数据增强算子,帮助用户扩增数据,增加训练用的数据量。 帮助用户提高数据的质量。 提供图像、文本、音频、视频等多种格式数据的预览,帮助用户识别数据质量。 提供对数据进行多维筛选的能力,用户可以根据样本属性、标注信息等进行样本筛选。 提供12+标注工具,方便用户进行精细化、场景化和专业化的数据标注。 提供基于样本和标注结果进行特征分析,帮助用户整体了解数据的质量。 提升用户数据准备的效率。 提供数据版本管理能力,帮助用户提升数据管理的效率。 提供数据校验、数据选择、数据清洗等多种数据处理算子,帮助用户快速处理数据。 提供交互式标注、智能标注等能力,提升用户数据标注的效率。 提供团队标注以及团队标注流程管理能力,帮助用户提升大批量数据标注的能力。 父主题: 数据准备与处理
  • 背景信息 目前只有“图像分类”和“物体检测”类型的标注作业支持智能标注功能。 启动智能标注时,需标注作业存在至少2种标签,且每种标签已标注的图片不少于5张。 启动智能标注时,必须存在未标注图片。 启动智能标注前,保证当前系统中不存在正在进行中的智能标注任务。 检查用于标注的图片数据,确保您的图片数据中,不存在RGBA四通道图片。如果存在四通道图片,智能标注任务将运行失败,因此,请从数据集中删除四通道图片后,再启动智能标注。
  • 文件型数据标注状态 数据标注状态分为“未标注”和“已标注”。 未标注:仅导入标注对象(指待标注的图片,文本等),不导入标注内容(指标注结果信息)。 已标注:同时导入标注对象和标注内容,当前“自由格式”的数据集不支持导入标注内容。 为了确保能够正确读取标注内容,要求用户严格按照规范存放数据: 导入方式选择目录时,需要用户选择“标注格式”,并按照标注格式的要求存放数据,详细规范请参见标注格式章节。 导入方式选择manifest时,需要满足manifest文件的规范。 数据标注状态选择“已标注”,您需要保证目录或manifest文件满足相应的格式规范,否则可能存在导入失败的情况。 导入已标注的文件,导入完成后,请检查您导入的数据是否为已标注状态。
  • 表格数据集从OBS导入操作 ModelArts支持从OBS导入表格数据,即csv文件。 表格数据集导入说明: 导入成功的前提是,数据源的schema需要与创建数据集指定的schema保持一致。其中schema指表格的列名和类型,创建数据集时一旦指定,不支持修改。 从OBS导入csv文件,不会校验数据类型,但是列数需要跟数据集的schema保持一致。如果数据格式不合法,会将数据置为null,详见表4。 导入的csv文件要求如下:需要选择文件所在目录,其中csv文件的列数需要跟数据集schema一致。支持自动获取csv文件的schema。 ├─dataset-import-example │ table_import_1.csv │ table_import_2.csv │ table_import_3.csv │ table_import_4.csv
  • 查看训练日志 查看训练日志有2种方式,在OBS查看和在PyCharm ToolKit工具中查看。 在OBS查看训练日志 提交训练作业时,系统将自动在您配置的OBS Path中,使用作业名称创建一个新的文件夹,用于存储训练输出的模型、日志和代码。 例如“train-job-01”作业,提交作业时会在“test-modelarts2”桶下创建一个命名为“train-job-01”的文件夹,且此文件夹下分别新建了三个文件夹“output”、“log”、“code”,分别用于存储输出模型、日志和训练代码。“output”文件夹还会根据您的训练作业版本再创建子文件夹,结构示例如下。 test-modelarts2 |---train-job-01 |---output |---log |---code
  • 创建算法 进入ModelArts控制台,参考创建算法操作指导,创建自定义算法。镜像应该满足pytorch_1.8.0-cuda_10.2-py_3.7-ubuntu_18.04-x86_64或tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64引擎。 对于用户希望优化的超参,需在“超参”设置中定义,可以给定名称、类型、默认值、约束等,具体设置方法可以参考定义超参。 单击勾选“自动搜索”,为算法设置算法搜索功能。自动搜索作业运行过程中,ModelArts后台通过指标正则表达式获取搜索指标参数,朝指定的优化方向进行超参优化。用户需要在代码中打印搜索参数并在控制台配置以下参数。 图1 设置算法搜索功能 搜索指标 搜索指标为目标函数的值,通常可以设置为loss、accuracy等。通过优化搜索指标的目标值超优化方向收敛,找到最契合的超参,提高模型精度和收敛速度。 表1 搜索指标参数 参数 说明 名称 搜索指标的名称。需要与您在代码中打印的搜索指标参数保持一致。 优化方向 可选“最大化”或者“最小化”。 指标正则 填入正则表达式。您可以单击智能生成功能自动获取正则表达式。 设置自动化搜索参数 从已设置的“超参”中选择可用于搜索优化的超参。优化的超参仅支持float类型,选中自动化搜索参数后,需设置取值范围。 搜索算法配置 ModelArts内置三种超参搜索算法,用户可以根据实际情况选择对应的算法,支持多选。对应的算法和参数解析请参考以下: bayes_opt_search:贝叶斯优化(SMAC) tpe_search:TPE算法 anneal_search:模拟退火算法(Anneal) 提交创建算法完成后即可执行下一步,创建训练作业。
共100000条