盘古大模型 PANGULARGEMODELS-Vector:Splitter

时间:2024-09-05 14:59:04

Splitter

Splitter用于文档拆分解析,提供对文档数据进行拆分解析能力,支持pdf/doc/docx/ppt/pptx/xls/xlsx/png/jpg/jpeg/bmp/gif/tiff/webp/pcx/ico/psd等格式文档。

  • 初始化:根据相应解析接口定义DocSplit类。以使用华为Pangu DocSplit为例:
    import com.huaweicloud.pangu.dev.sdk.api.doc.splitter.DocSplit;
    import com.huaweicloud.pangu.dev.sdk.api.doc.splitter.DocSplits;
    import com.huaweicloud.pangu.dev.sdk.api.doc.splitter.config.SplitConfig;
    
    // 初始化 pangudoc split(直接指定filePath和mode)
    String filePath = "D:/test.doc";
    DocSplit docPanguSplit =
        DocSplits.of(SplitConfig.builder().splitName(DocSplits.PANGUDOC).filePath(filePath).mode("1").build());
    // 初始化pangudoc split(通过配置文件指定filePath和mode)
    DocSplit docPanguSplit = DocSplits.of(DocSplits.PANGUDOC);

    其中,filePath指的是需要解析的文档路径,mode为分割解析模式,具体定义如下:

    0 - 返回文档的原始段落,不做其他处理。

    1 - 根据标注的书签或目录分段,一般适合有层级标签的word文档。

    2 - 根据内容里的章节条分段,适合制度类文档。

    3 - 根据长度分段,默认按照500字拆分,会尽量保留完整句子。

support.huaweicloud.com/ugobs-obs-pangulm/zh-cn_topic_0000001714259917.html