企业级AI应用开发专业套件 MODELARTS PRO-自然语言处理套件(使用文本分类工作流开发应用):步骤1:准备数据

时间:2024-04-03 15:32:07

步骤1:准备数据

在开发应用之前,您需要自行准备训练数据集并上传至OBS桶及文件夹中。由于数据安全原因,本样例不提供具体的样例数据,仅提供样例数据要求。

本样例使用已标注数据训练模型,数据集要求如下:

  • 文件格式要求为txt或者csv,文件大小不能超过8MB。
  • 以换行符作为分隔符,每行数据代表一个标注对象。
  • 每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。
  • 文本分类的标注对象和标注内容在一个文本文件内,标注对象与标注内容之间,多个标注内容之间可分别指定分隔符。
    例如,文本文件的内容如下所示。标注对象与标注内容之间采用Tab键分隔。
    手感很好,反应速度很快,不知道以后怎样   positive
    三个月前买了一个用的非常好果断把旧手机替换下来尤其在待机方面秒杀  positive
    没充一会电源怎么也会发热呢音量健不好用回弹不好  negative
    算是给自己的父亲节礼物吧物流很快下单不到24小时就到货了耳机更赞有些低音炮的感觉入耳很紧不会掉棒棒哒  positive
  1. 按上文要求准备训练数据集,并保存至本地,训练数据命名为“test.txt”
  2. 登录OBS服务,创建桶和文件夹,用于存放数据集。

    创建名称为“mapro-nlp”的OBS桶。

    创建名称为“data-in”的文件夹用于存放训练数据集。

    创建名称为“data-out”的文件夹用于存放输出的数据集。

    创建OBS桶和文件夹的操作指导请参见创建桶新建文件夹。为保证数据能正常访问,请务必确保创建的OBS桶与 ModelArts Pro 服务在同一区域。

  3. 参考上传文件,使用单个文件上传方式将本地准备的训练数据“test.txt”文件上传至OBS路径“mapro-nlp/data-in”下。
support.huaweicloud.com/qs-modelartspro/modelartspro_04_0005.html