AI开发平台MODELARTS-OBS目录导入数据规范说明:文本分类

时间:2024-09-05 08:30:09

文本分类

文本分类支持导入“txt”“csv”两种文件类型,文本的编码格式支持“UTF-8”“GBK”

文本分类的标注对象和标注文件有2种存放模式。

  • ModelArts text classfication combine 1.0:文本和标注合并,文本分类的标注对象和标注内容在一个文本文件内,标注对象与标注内容之间,多个标注内容之间可分别指定分隔符。
    例如,文本文件的内容如下所示。标注对象与标注内容之间采用tab键分隔。
    手感很好,反应速度很快,不知道以后怎样   positive
    三个月前买了一个用的非常好果断把旧手机替换下来尤其在待机方面表现得尤为明显  positive
    没充一会电源怎么也会发热呢音量健不好用回弹不好  negative
    算是给自己的父亲节礼物吧物流很快下单不到24小时就到货了耳机更赞有些低音炮的感觉入耳很紧不会掉棒棒哒  positive
  • ModelArts text classfication 1.0:文本和标注分离,文本分类的标注对象和标注文件均为文本文件,并且以行数进行对应,如标注文件中的第一行表示的是标注对象文件中的第一行的标注。

    例如,标注对象“COMMENTS_20180919_114745.txt”的内容如下所示。

    手感很好,反应速度很快,不知道以后怎样
    三个月前买了一个用的非常好果断把旧手机替换下来尤其在待机方面性能好
    没充一会电源怎么也会发热呢音量健不好用回弹不好
    算是给自己的父亲节礼物吧物流很快下单不到24小时就到货了耳机更赞有些低音炮的感觉入耳很紧不会掉棒棒哒

    标注文件“COMMENTS_20180919_114745_result.txt”的内容。

    positive
    negative
    negative 
    positive

    此数据格式要求将标注对象和标注文件存储在同一目录,并且一一对应,如标注对象文件名为“COMMENTS_20180919_114745.txt”,那么标注文件名为“COMMENTS _20180919_114745_result.txt”

    数据文件存储示例:

    ├─dataset-import-example 
    │      COMMENTS_20180919_114732.txt 
    │      COMMENTS _20180919_114732_result.txt 
    │      COMMENTS _20180919_114745.txt 
    │      COMMENTS _20180919_114745_result.txt 
    │      COMMENTS _20180919_114945.txt 
    │      COMMENTS _20180919_114945_result.txt
support.huaweicloud.com/dataprepare-modelarts/dataprepare-modelarts-0013.html