企业级AI应用开发专业套件 MODELARTS PRO-自然语言处理套件(使用文本分类工作流开发应用):步骤1:准备数据
步骤1:准备数据
在开发应用之前,您需要自行准备训练数据集并上传至OBS桶及文件夹中。由于数据安全原因,本样例不提供具体的样例数据,仅提供样例数据要求。
本样例使用已标注数据训练模型,数据集要求如下:
- 文件格式要求为txt或者csv,文件大小不能超过8MB。
- 以换行符作为分隔符,每行数据代表一个标注对象。
- 每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。
- 文本分类的标注对象和标注内容在一个文本文件内,标注对象与标注内容之间,多个标注内容之间可分别指定分隔符。
- 按上文要求准备训练数据集,并保存至本地,训练数据命名为“test.txt”。
- 登录OBS服务,创建桶和文件夹,用于存放数据集。
创建名称为“data-in”的文件夹用于存放训练数据集。
创建名称为“data-out”的文件夹用于存放输出的数据集。
创建OBS桶和文件夹的操作指导请参见创建桶和新建文件夹。为保证数据能正常访问,请务必确保创建的OBS桶与 ModelArts Pro 服务在同一区域。
- 参考上传文件,使用单个文件上传方式将本地准备的训练数据“test.txt”文件上传至OBS路径“mapro-nlp/data-in”下。