企业级AI应用开发专业套件 MODELARTS PRO-自然语言处理套件(使用文本分类工作流开发应用):步骤3:选择数据
步骤3:选择数据
- 在应用开发的“数据选择”页面,单击“新建数据集”。
右侧弹出“新建数据集”页面。
- 按表4填写数据集基本信息,然后单击“确定”。
图6 新建数据集
表4 新建数据集参数说明 参数
说明
推荐填写
数据集名称
待新建的数据集名称。支持输入中英文、数字、下划线及中划线。
本样例填写“test”。
描述
数据集简要描述。
-
数据集状态
上传的训练数据可以是已标注的数据,也可以是未标注的数据。
您可以根据自身业务选择“数据集状态”是“已标注数据集”还是“未标注数据集”。
数据集模板可在选择“数据集状态”后,单击下方的“文本分类已标注数据模板”或“文本分类未标注数据模板”,下载数据集模板至本地查看。
本样例使用已标注的数据集,所以选择“已标注数据集”。
如果您想手动修改标签,可单击数据集操作列的“标注”,进入数据集概览页单击右上角的“开始标注”,在“数据标注”页面手动标注数据,详细的操作指导请参考标注数据。
数据集输入位置
训练数据存储至OBS的位置。
单击“数据集输入位置”右侧输入框,在弹出的“数据集输入位置”对话框中,选择“OBS桶”和“文件夹”,然后单击“确定”。
选择步骤1:准备数据中提前上传数据集的OBS路径“mapro-nlp/data-in”。
数据集输出位置
待新建的数据集存储至OBS的位置。
单击“数据集输出位置”右侧的“修改”,在弹出的“数据集输出位置”对话框中,选择“OBS桶”和“文件夹”,然后单击“确定”。
选择步骤1:准备数据中提前创建好的输出数据集的OBS路径“mapro-nlp/data-out”。
- 勾选已上传的数据集。
您可以选择打开“合并标签”开关,将样本数量较少的标签在模型训练中进行合并,以达到更优训练效果。
图7 数据选择
- 单击右下角“下一步”。
进入应用开发的“模型训练”页面。