华为云用户手册

  • 计费构成分析(场景一) 因为函数A、B和C使用不同类型实例,因此需要分段计算费用,具体明细如表2所示。 表2 计费明细分析 计费项 计费明细 请求总次数费用 (200万次+10万次+10万次-100万次)* 1.33元/100万次=1.596元 执行总时间费用 函数A累计执行总时间:512MB/1024MB * (500毫秒/1000毫秒) * 200万次 =50万GB-秒。 函数B累计执行总时间:128MB/1024MB * (12*24*60*60)=129,600GB-秒。 函数C执行时间分为两部分: 执行时间:128MB/1024MB * 5秒 * 10万次=62,500GB-秒; 空闲时间:128MB/1024MB *(10*24*60*60 - 5秒 * 10万次)=45,500GB-秒。 函数A、B、C累计执行总时间费用:0.00011108元/GB-秒 *(50万GB-秒+129,600GB-秒+62,500GB-秒-40万GB-秒)+45,500GB-秒 * 0.000033324元/GB-秒=33.96271元 总费用 请求总次数费用+执行总时间费用=1.596元+33.96271元=35.55871元≈35.56元
  • 计费场景二 某用户于2023年5月份创建了一个标准函数流,该标准函数流配置信息如表3所示: 表3 标准函数流配置信息 函数流节点 说明 1个开始节点和1个结束节点 假设5月份期间: 该标准函数流累计执行次数为1万次; 所有函数节点都是未使用预留实例,且每个函数内存配置是512MB、执行一次时间是500毫秒; 1个循环节点,其中循环节点内包含2个函数节点 1个并行分支节点,且分支出2个支线,分别是1个函数节点和1个子流程节点 并行分支节点中的子流程节点中包含2个函数节点 以上标准函数流配置如图1所示。那么,在5月份期间,该函数流总共产生多少费用? 图1 标准函数流
  • 提交训练作业并调试 当创建训练作业的参数配置完成后,单击“提交”,在信息确认页面单击“确定”,提交创建训练作业任务。 在训练作业列表中,刚创建的训练作业状态为“等待中”。 在训练作业列表中,当训练作业的状态变为“运行中”时,单击操作列的“打开”弹出JupyterLab页面,即可进行训练代码调试。 JupyterLab页面左侧会显示训练代码文件,JupyterLab的使用请参见JupyterLab简介及常用操作。 当创建的调试训练作业开启了SSH远程开发时,在训练作业详情页获取“SSH远程开发”参数后的“密钥对”和SSH地址信息后,可以使用本地IDE远程连接到调试训练作业中进行代码调试。 训练作业运行过程中将按照选择的资源进行计费。
  • 选择自定义算法创建方式 只支持使用 自定义镜像 创建调试训练作业。 表2 选择调试训练作业的创建方式 参数名称 说明 创建方式 固定选择“自定义算法”。 启动方式 固定选择“自定义”。 镜像 必填,填写容器镜像的地址。 容器镜像地址的填写支持如下方式。 选择自有镜像或他人共享的镜像:单击右边的“选择”,从容器镜像中选择用于训练的容器镜像。所需镜像需要提前上传到SWR服务中。 选择公开镜像:直接输入SWR服务中公开镜像的地址。地址直接填写“组织名称/镜像名称:版本名称”,不需要带 域名 信息,系统会自动拼接域名地址。 代码目录 选择训练代码文件所在的OBS目录。如果自定义镜像中不含训练代码则需要配置该参数,如果自定义镜像中已包含训练代码则不需要配置。 需要提前将代码上传至OBS桶中,目录内文件总大小要小于或等于5GB,文件数要小于或等于1000个,文件深度要小于或等于32。 训练代码文件会在训练作业启动的时候被系统自动下载到训练容器的“${MA_JOB_DIR}/demo-code”目录中,“demo-code”为存放代码目录的最后一级OBS目录。例如,“代码目录”选择的是“/test/code”,则训练代码文件会被下载到训练容器的“${MA_JOB_DIR}/code”目录中。 运行用户ID 容器运行时的用户ID,该参数为选填参数,建议使用默认值1000。 如果需要指定uid,则uid数值需要在规定范围内,专属资源池的uid范围是1~65535。同时,自定义镜像必须存在“/home/ma-user”目录,且“/home/ma-user”目录的属主为指定uid,属组为指定uid对应的gid。 本地代码目录 指定训练容器的本地目录,启动训练时系统会将代码目录下载至此目录。 此参数可选,默认本地代码目录为“/home/ma-user/modelarts/user-job-dir”。 工作目录 训练时,系统会自动cd到此目录下执行启动文件。
  • 配置训练参数 训练过程中可以从OBS桶或者数据集中获取输入数据进行模型训练,训练输出的结果也支持存储至OBS桶中。创建训练作业时可以参考表3配置输入、输出、超参、环境变量等参数。 表3 配置训练参数 参数名称 子参数 说明 输入 参数名称 算法代码需要通过“输入”的“参数名称”去读取训练的输入数据。 建议设置为“data_url”。训练输入参数要与所选算法的“输入”参数匹配,请参见创建算法时的表4。 数据集 单击“数据集”,在ModelArts数据集列表中勾选目标数据集并选择对应的版本。 训练启动时,系统将自动下载输入路径中的数据到训练运行容器。 说明: ModelArts数据管理模块在重构升级中,对未使用过数据管理的用户不可见。建议新用户将训练数据存放至OBS桶中使用。 数据存储位置 单击“数据存储位置”,从OBS桶中选择训练输入数据的存储位置。 训练启动时,系统将自动下载输入路径中的数据到训练运行容器。 获取方式 以参数名称为“data_path”的训练输入为例,说明获取方式的作用。 当参数的“获取方式”为“超参”时,可以参考如下代码来读取数据。 import argparse parser = argparse.ArgumentParser() parser.add_argument('--data_path') args, unknown = parser.parse_known_args() data_path = args.data_path 当参数的“获取方式”为“环境变量”时,可以参考如下代码来读取数据。 import os data_path = os.getenv("data_path", "") 输出 参数名称 算法代码需要通过“输出”的“参数名称”去读取训练的输出目录。 建议设置为“train_url”。训练输出参数要与所选算法的“输出”参数匹配,请参见创建算法时的表5。 数据存储位置 单击“数据存储位置”,从OBS桶中选择训练输出数据的存储位置。训练过程中,系统将自动从训练容器的本地代码目录下同步文件到数据存储位置。 说明: 数据存储位置仅支持OBS路径。为避免数据存储冲突,建议选择一个空目录用作“数据存储位置”。 获取方式 以参数名称为“train_url”的训练输出为例,说明获取方式的作用。 当参数的“获取方式”为“超参”时,可以参考如下代码来读取数据。 import argparse parser = argparse.ArgumentParser() parser.add_argument('--train_url') args, unknown = parser.parse_known_args() train_url = args.train_url 当参数的“获取方式”为“环境变量”时,可以参考如下代码来读取数据。 import os train_url = os.getenv("train_url", "") 预下载至本地目录 选择是否将输出目录下的文件预下载至本地目录。 不下载:表示启动训练作业时不会将输出数据的存储位置中的文件下载到训练容器的本地代码目录中。 下载:表示系统会在启动训练作业时自动将输出数据的存储位置中的所有文件下载到训练容器的本地代码目录中。下载时间会随着文件变大而变长,为了防止训练时间过长,请及时清理训练容器的本地代码目录中的无用文件。如果要使用设置断点续训练,则必须选择“下载”。 超参 - 超参用于训练调优。此参数由选择的算法决定,如果在算法中已经定义了超参,则此处会显示算法中所有的超参。 超参支持修改和删除,状态取决于算法中的超参“约束”设置,详情请参见创建算法时的定义超参。 说明: 为保证数据安全,请勿输入敏感信息,例如明文密码。 环境变量 - 根据业务需求增加环境变量。训练容器中预置的环境变量请参见管理训练容器环境变量。 说明: 为保证数据安全,请勿输入敏感信息,例如明文密码。 自动重启 - 打开开关后,可以设置重启次数和是否启用无条件自动重启。 打开自动重启开关后,当由于环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力,开启此功能前请确认代码已适配断点续训,操作指导请参见设置断点续训练。 重启次数的取值范围是1~128,缺省值为3。创建训练后不支持修改重启次数,请合理设置次数。 勾选无条件自动重启后,只要系统检测到训练异常,就无条件重启训练作业。为了避免无效重启浪费算力资源,系统最多只支持连续无条件重启3次。 当训练过程中触发了自动重启,则系统会记录重启信息,在训练作业详情页可以查看故障恢复详情,具体请参见训练作业重调度。
  • 配置调试训练作业基本信息 在创建训练作业页面填写调试训练作业的基本信息。 表1 调试训练作业的基本信息 参数名称 说明 名称 必填,训练作业的名称。 系统会自动生成一个名称,可以根据业务需求重新命名,命名规则如下: 支持1~64位字符。 可以包含大小写字母、数字、中划线(-)或下划线(_)。 描述 训练作业的简介,便于在训练作业列表了解作业信息。 设置实验 将训练作业分类有序地放入实验中进行管理。 如果选择“纳入新实验”,需要配置“新建实验名称”和“新建实验描述”。 如果选择“纳入已有实验”,需要选择“实验名称”。 如果选择“不纳入实验”,则不在实验中进行统一管理。 作业模式 创建调试训练作业时,必须选择“调试模型”。如果选择“生产模式”,则请参考创建生产训练作业创建生产训练作业。 SSH远程开发 选择是否启用SSH远程开发功能。 默认关闭,不启用SSH远程开发,只支持使用JupyterLab调试训练作业。打开后,启用SSH远程开发,则必须配置“密钥对”,此时支持使用JupyterLab或本地IDE调试训练作业。 密钥对 启用SSH远程开发时,必须配置密钥对。 可以选择已有密钥对,也可以单击“立即创建”新建密钥对,具体操作请参见创建密钥对。 说明: 创建好的密钥对,请下载并妥善保管,使用本地IDE远程连接到调试训练作业时需要使用密钥对进行鉴权认证。 训练应用程序 默认使用JupyterLab,支持去勾选。 创建调试作业时,建议SSH远程开发和JupyterLab至少启用一个。
  • 前提条件 已经将用于训练作业的数据上传至OBS目录。 已经在OBS目录下创建了至少1个空的文件夹,用于存储训练输出的内容。 ModelArts不支持加密的OBS桶,创建OBS桶时,请勿开启桶加密。 由于训练作业运行需消耗资源,为了避免训练失败请确保账户未欠费。 确保使用的OBS目录与ModelArts在同一区域。 检查是否配置了访问授权。如果未配置,请参见使用委托授权完成操作。 已经上传镜像到SWR服务中。 已经准备好训练作业的专属资源池。如需新建资源池请参见创建资源池。
  • 修改标注 当数据完成标注后,您还可以进入“已标注”页签,修改标注数据。 在“已标注”页签下,单击目标视频文件,在标注页面的右上方选择“标注列表”进入“当前文件标签”详情页面,可单击时间点右侧小三角展开详情,您可以修改或删除标签。 修改标签:在“当前文件标签”详情页,单击标签右侧的编辑按钮,标签名称可进行修改。 删除标签:在“当前文件标签”详情页,单击标签右侧的删除按钮,将直接删除此标签。如果单击画面时间右侧的删除按钮,将删除此画面下的所有标签。 图4 修改标注
  • 同步数据源 ModelArts会自动从数据集输入位置同步数据至数据集详情页,包含数据及标注信息。 为了快速获取OBS桶中最新数据,可在数据集详情页的“已标注”或“未标注”页签中,单击“同步数据源”,快速将通过OBS上传的数据添加到数据集中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。
  • 视频标注 标注作业详情页中,展示了此数据集中“未标注”、“已标注”和“全部”的视频。 在“未标注”页签左侧视频列表中,单击目标视频文件,打开标注页面。 在标注页面中,播放视频,当视频播放至待标注时间时,单击进度条左侧的暂停按钮,将视频暂停至某一帧对应的画面。 在上方区域选择标注框,默认为矩形框。使用鼠标在视频画面中框出目标,然后在弹出的添加标签文本框中,直接输入新的标签名,在文本框前面选中标签颜色,单击“添加”完成1个物体的标注。如果已存在标签,从下拉列表中选择已有的标签,然后单击“添加”完成标注。逐步此画面中所有物体所在位置,一帧对应的画面可添加多个标签。 支持的标注框与“物体检测”类型一致,详细描述请参见物体检测章节的表2 标注界面的常用按钮。 图2 视频标注 上一帧对应的画面标注完成后,在进度条处单击播放按钮继续播放,在需要标注处暂停,然后重复执行步骤3完成整个视频的标注。 单击界面右上角的“标注列表”,在“当前文件标签”的详情页将呈现当前视频带标注的时间点。 图3 当前文件标签信息 单击页面左上角“返回数据标注预览”,页面将自动返回标注作业详情页面,同时,标注好的视频将呈现在“已标注”页签下。
  • 删除视频 通过数据删除操作,可将需要丢弃的视频数据快速删除。 在“全部”、“未标注”或“已标注”页面中,依次选中需要删除的视频,或者选择“选择当前页”选中该页面所有视频,然后单击上边的“删除”。在弹出的对话框中,根据实际情况选择是否勾选“同时删除OBS源文件”,确认信息无误后,单击“确定”完成视频删除操作。 其中,被选中的视频,其左上角将显示为勾选状态。如果当前页面无选中视频时,“删除视频”按钮为灰色,无法执行删除操作。 如果勾选了“同时删除OBS源文件”,删除视频操作将删除对应OBS目录下存储的视频,此操作可能会影响已使用此源文件的其他数据集或数据集版本,有可能导致展示异常或训练/推理异常。删除后,数据将无法恢复,请谨慎操作。
  • 删除音频 通过数据删除操作,可将需要丢弃的音频数据快速删除。 在“未标注”或“已标注”页面中,选中需要删除的音频,或者选择“选择当前页”选中该页面所有音频,然后单击左上角“删除音频”,在弹出的对话框中,根据实际情况选择是否勾选“同时删除OBS源文件”,确认信息无误后,单击“确定”完成音频删除操作。 其中,被选中的音频,其右上角将显示为勾选状态。如果当前页面无选中音频时,“删除音频”按钮为灰色,无法执行删除操作。 如果勾选了“同时删除OBS源文件”,删除音频操作是将删除对应OBS目录下存储的音频。此操作可能会影响已使用此源文件的其他数据集或数据集版本,有可能导致展示异常或训练/推理异常。删除后,数据将无法恢复,请谨慎操作。
  • 同步新数据 ModelArts会自动将数据集中新增的数据同步至标注作业,包含数据及当前标注作业支持的标注信息。 为了快速获取数据集中最新数据,可在标注作业详情页的“未标注”和“已标注”页签中,单击“同步新数据”,快速将数据集中的数据添加到标注作业中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。
  • 标注音频 标注作业详情页中,展示了此标注作业中“未标注”和“已标注”的音频,默认显示“未标注”的音频列表。单击音频左侧,即可进行音频的试听。 在“未标注”页签,勾选需进行标注的音频。 手工点选:在音频列表中,单击音频,当右上角出现蓝色勾选框时,表示已勾选。可勾选同类别的多个音频,一起添加标签。 批量选中:如果音频列表的当前页,所有音频属于一种类型,可以在列表的右上角单击“选择当前页”,则当前页面所有的音频将选中。 添加标签。 在右侧的“添加标签”区域中,单击“标签”下侧的文本框设置标签。 方式一(已存在标签):单击“标签”下方的文本框,在快捷键下拉列表中选择快捷键,然后在标签文本输入框中选择已有的标签名称,然后单击“确定”。 方式二(新增标签):在“标签”下方的文本框中,在快捷键下拉列表中选择快捷键,然后在标签文本输入框中输入新的标签名称,然后单击“确定”。 选中的音频将被自动移动至“已标注”页签,且在“未标注”页签中,标签的信息也将随着标注步骤进行更新,如增加的标签名称、各标签对应的音频数量。 快捷键的使用说明:为标签指定快捷键后,当您选择一段音频后,在键盘中按一下快捷键,即可为此音频增加为此快捷键对应的标签。例如“aa”标签对应的快捷键是“1”,在数据标注过程中,选中1个或多个文件,按“1”,界面将提示是否需要将此文件标注为“aa”标签,单击确认即可完成标注。 快捷键对应的是标签,1个标签对应1个快捷键。不同的标签,不能指定为同一个快捷键。快捷键的使用,可以大幅提升标注效率。 图2 添加音频标签
  • 修改标注 当数据完成标注后,您还可以进入“已标注”页签,对已标注的数据进行修改。 基于音频修改 在标注作业详情页面,单击“已标注”页签,然后在音频列表中选中待修改的音频(选择一个或多个)。在右侧标签信息区域中对标签进行修改。 修改标签:在“选中文件标签”区域中,单击操作列的编辑图标,然后在文本框中输入正确的标签名,然后单击确定图标完成修改。 删除标签:在“选中文件标签”区域中,单击操作列的删除图标删除该标签。 基于标签修改 在标注作业详情页面,单击“已标注”页签,在音频列表右侧,显示全部标签的信息。 图3 全部标签信息 修改标签:单击操作列的编辑图标,然后在弹出的对话框中输入修改后的标签名,然后单击“确定”完成修改。修改后,之前添加了此标签的音频,都将被标注为新的标签名称。 删除标签:单击操作列的删除图标,在弹出的对话框中,根据提示框选择需要删除的对象,然后单击“确定”完成删除。
  • 同步新数据 ModelArts会自动将数据集中新增的数据同步至标注作业,包含数据及当前标注作业支持的标注信息。 为了快速获取数据集中最新数据,可在标注作业详情页的“未标注”页签中,单击“同步新数据”,快速将数据集中的数据添加到标注作业中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。
  • 修改标注 当数据完成标注后,您还可以进入“已标注”页签,对已标注的数据进行修改。 在数据集详情页,单击“已标注”页签,在右侧标签信息区域中对文本信息进行修改。 基于文本修改 在数据集详情页,单击“已标注”页签,然后在文本列表中选中待修改的文本。 手工点选删除:在文本列表中,单击文本,当文本背景变为蓝色时,表示已选择。在页面右侧,单击文本标签上方的删除单个标签。 基于标签修改 在数据集详情页,单击“已标注”页签,在图片列表右侧,显示全部标签的信息。 批量修改:在“全部标签”区域中,单击操作列的编辑按钮,然后在文本框中添加标签名称,选择标签颜色,单击“确定”完成修改。 批量删除:在“全部标签”区域中,单击操作列的删除按钮,在弹出对话框中,可选择“仅删除标签”或“删除标签及仅包含此标签的标注对象”,然后单击“确定”。
  • 同步新数据 ModelArts会自动将数据集中新增的数据同步至标注作业,包含数据及当前标注作业支持的标注信息。 为了快速获取数据集中最新数据,可在标注作业详情页的“未标注”页签中,单击“同步新数据”,快速将数据集中的数据添加到标注作业中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。
  • 删除音频 通过数据删除操作,可将需要丢弃的音频数据快速删除。 在“未标注”或“已标注”页面中,选中需要删除的音频,然后单击左上角“删除音频”,在弹出的对话框中,根据实际情况选择是否勾选“同时删除OBS源文件”,确认信息无误后,单击“确定”完成音频删除操作。 如果勾选了“同时删除源OBS文件”,删除音频操作是将删除对应OBS目录下存储的音频。此操作可能会影响已使用此源文件的其他数据集或数据集版本,有可能导致展示异常或训练/推理异常。删除后,数据将无法恢复,请谨慎操作。
  • 删除文件 通过数据删除操作,可将需要丢弃的文件数据快速删除。 在“未标注”页面中,单击选中需要删除的文本,然后单击左上角“删除”,即可完成文本的删除操作。 在“已标注”页面中,选中待删除的文本,然后单击“删除”,删除单个文本。或者勾选“选择当前页”选中该页面所有文本,然后单击左上角“删除”,即可完成当前页所有文本的删除操作。 其中,被选中的文本,其背景将显示为蓝色。如果当前页面无选中文本时,“删除”按钮为灰色,无法执行删除操作。
  • 同步新数据 ModelArts会自动将数据集中新增的数据同步至标注作业,包含数据及当前标注作业支持的标注信息。 为了快速获取数据集中最新数据,可在标注作业详情页的“未标注”页签中,单击“同步新数据”,快速将数据集中的数据添加到标注作业中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。
  • 注意事项 在开始标注之前,需确保标注作业对应的“实体标签”和“关系标签”已定义好。“关系标签”需设置对应的“起始实体”和“终止实体”。“关系标签”只能添加至其设置好的“起始实体”和“终止实体”之间。 例如,如图1所示,当两个文本都被标注为“地点”,那么针对这两个实体,无法添加本示例中的任意一个关系标签。当无法添加某个关系标签时,界面将显示一个红色的叉号,如图2所示。 图1 实体标签和关系标签的示例 图2 无法添加关系标签
  • 标注文本 标注作业详情页中,展示了此标注作业中“未标注”和“已标注”的文本,默认显示“未标注”的文本列表。 在“未标注”页签文本列表中,页面左侧罗列“标注对象列表”。在列表中单击需标注的文本对象,选中相应文本内容,在页面呈现的实体类型列表中选择实体名称,完成实体标注。 图4 实体标注 在完成多个实体标注后,鼠标左键依次单击起始实体和终止实体,在呈现的关系类型列表中选择一个对应的关系类型,完成关系标注。 图5 关系标注 当所有的标注对象都已完成标注,单击页面下方“保存当前页”完成“未标注”列表的文本标注。 “文本三元组”类型的数据集,不支持在标注页面修改标签,需要进入“标签管理”页面,修改“实体标签”和“关系标签”。
  • 修改标注 当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。 在标注作业详情页,单击“已标注”页签,在左侧文本列表中选中一行文本,右侧区域显示具体的标注信息。将鼠标移动至对应的实体标签或关系类型,单击鼠标右键,可删除此标注。单击鼠标左键,依次单击连接起始实体和终止实体,可增加关系类型,增加关系标注。 图6 在文本中修改标签 您也可以在单击页面下方的“删除当前项标签”按钮,删除选中文本对象中的所有标签。 图7 删除当前项标签
  • 标注音频 标注作业详情页中,展示了此标注作业中“未标注”和“已标注”的音频,默认显示“未标注”的音频列表。 在“未标注”页签左侧音频列表中,单击目标音频文件,在右侧的区域中出现音频,单击音频下方,即可进行音频播放。 根据播放内容,选取合适的音频段,在下方“语音内容”文本框中填写音频标签和内容。 图2 语音标签音频标注 输入内容后单击下方的“确认标注”按钮完成标注。音频将被自动移动至“已标注”页签。
  • 同步数据源 ModelArts会自动从数据集输入位置同步数据至数据集详情页,包含数据及标注信息。 为了快速获取OBS桶中最新数据,可在数据集详情页的“未标注”页签中,单击“同步数据源”,快速将通过OBS上传的数据添加到数据集中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。
  • 删除音频 通过数据删除操作,可将需要丢弃的音频数据快速删除。 在“未标注”或“已标注”页面中,选中需要删除的音频,然后单击左上角“删除音频”,在弹出的对话框中,根据实际情况选择是否勾选“同时删除OBS源文件”,确认信息无误后,单击“确定”完成音频删除操作。 如果勾选了“同时删除OBS源文件”,删除音频操作是将删除对应OBS目录下存储的音频。此操作可能会影响已使用此源文件的其他数据集或数据集版本,有可能导致展示异常或训练/推理异常。删除后,数据将无法恢复,请谨慎操作。
  • 文本(文本分类、命名实体、文本三元组) 图5 文本分类、命名实体、文本三元组类型的参数 表3 文本类型标注作业的详细参数 参数名称 说明 数据集名称 选择支持当前标注类型的数据集。 添加标签集(文本分类、命名实体) 设置标签名称:在标签名称文本框中,输入标签名称。长度为1~1024字符。 添加标签:单击“添加标签”可增加多个标签。 设置标签颜色:在每个标签右侧的标签颜色区域下,可在色板中选择颜色,或者直接输入十六进制颜色码进行设置。 图6 设置标签颜色 添加标签集(文本三元组) 针对“文本三元组”类型的数据集,需要设置实体标签和关系标签。 实体标签:需设置标签名以及标签颜色。可在颜色区域右侧单击加号增加多个标签。 关系标签:关系标签为两个实体之间的关系。需设置起始实体和终止实体,您需要先添加至少2个实体标签后,再添加关系标签。 图7 添加标签 启用团队标注 选择是否启用团队标注。 启用团队标注功能,需填写对应的团队标注任务“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务。 在启用“团队标注”前,需确保您已经在“标注团队”管理页面,添加相应的团队以及成员。如果没有标注团队,可直接从界面链接跳转至“标注团队”页面,添加您的团队并为其添加成员。详细指导请参见添加团队。 启用团队标注功能的数据集,在创建完成后,可以在“标注类型”中看到“团队标注”的标识。
  • 标注作业支持的数据类型 对于不同类型的数据集,用户可以选择不同的标注任务,当前ModelArts支持如下类型的标注任务。 图片 图像分类:识别一张图片中是否包含某种物体。 物体检测:识别出图片中每个物体的位置及类别。 图像分割:根据图片中的物体划分出不同区域。 音频 声音分类:对声音进行分类。 语音内容:对语音内容进行标注。 语音分割:对语音进行分段标注。 文本 文本分类:对文本的内容按照标签进行分类处理。 命名实体:针对文本中的实体片段进行标注,如“时间”、“地点”等。 文本三元组:针对文本中的实体片段和实体之间的关系进行标注。 视频 视频标注:识别出视频中每个物体的位置及分类。目前仅支持mp4格式。
  • 音频(声音分类、语音内容、语音分割) 图4 声音分类、语音内容、语音分割类型的参数 表2 音频类型标注作业的详细参数 参数名称 说明 数据集名称 选择支持当前标注类型的数据集。 添加标签集(声音分类) “声音分类”类型的标注作业可以添加标签集。 设置标签名称:在标签名称文本框中,长度为1~1024字符。 添加标签:单击“添加标签”可增加多个标签。 标签管理(语音分割) “语音分割”类型的标注作业,支持标签管理。 单标签 单标签适用于一段音频标注只有一种类别的音频,通常标注一个标签。 设置标签名称:在“标签名”列输入标签名称。长度为1~1024字符。 设置标签颜色:在“标签颜色”列设置标签颜色。可在色板中选择颜色,或者直接输入十六进制颜色码进行设置。 多标签 多标签适用于多维度标注,例如在一段音频标注噪音与人说话的声音两种类别,其中说话的声音还可以标注为不同人的声音。单击“新建标签类别”可添加多个标签类别,一个标签类别可以包含多个标签。“标签类别”和“标签名”只能是中文、字母、数字、英文句号、下划线或中划线组成的合法字符串。长度为1~256字符。 设置标签类别:在“标签类别”输入标签类别的名称。 设置标签名称:在“标签名”输入标签名称。 添加标签:单击“添加标签”可增加多个标签。 启用语音内容标注(语音分割) 仅“语音分割”类型数据集支持设置,默认关闭。如果启用此功能,支持针对语音内容进行标注。 启用团队标注(语音分割) 仅“语音分割”类型支持团队标注,因此选择创建语音分割类型时,支持设置是否启用团队标注。 启用团队标注功能,需填写对应的团队标注任务“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务。 在启用“团队标注”前,需确保您已经在“标注团队”管理页面,添加相应的团队以及成员。如果没有标注团队,可直接从界面链接跳转至“标注团队”页面,添加您的团队并为其添加成员。详细指导请参见添加团队。 启用团队标注功能的数据集,在创建完成后,可以在“标注类型”中看到“团队标注”的标识。
共100000条