盘古大模型 PANGULARGEMODELS-Vector:Splitter
Splitter
Splitter用于文档拆分解析,提供对文档数据进行拆分解析能力,支持pdf/doc/docx/ppt/pptx/xls/xlsx/png/jpg/jpeg/bmp/gif/tiff/webp/pcx/ico/psd等格式文档。
- 初始化:根据相应解析接口定义DocSplit类。以使用华为Pangu DocSplit为例:
import com.huaweicloud.pangu.dev.sdk.api.doc.splitter.DocSplit; import com.huaweicloud.pangu.dev.sdk.api.doc.splitter.DocSplits; import com.huaweicloud.pangu.dev.sdk.api.doc.splitter.config.SplitConfig; // 初始化 pangudoc split(直接指定filePath和mode) String filePath = "D:/test.doc"; DocSplit docPanguSplit = DocSplits.of(SplitConfig.builder().splitName(DocSplits.PANGUDOC).filePath(filePath).mode("1").build());
// 初始化pangudoc split(通过配置文件指定filePath和mode) DocSplit docPanguSplit = DocSplits.of(DocSplits.PANGUDOC);
其中,filePath指的是需要解析的文档路径,mode为分割解析模式,具体定义如下:
0 - 返回文档的原始段落,不做其他处理。
1 - 根据标注的书签或目录分段,一般适合有层级标签的word文档。
2 - 根据内容里的章节条分段,适合制度类文档。
3 - 根据长度分段,默认按照500字拆分,会尽量保留完整句子。