盘古大模型 PANGULARGEMODELS-Vector:Splitter
Splitter
文档拆分解析,提供对文档数据进行拆分解析能力,支持pdf/doc/docx/ppt/pptx/xls/xlsx/png/jpg/jpeg/bmp/gif/tiff/webp/pcx/ico/psd等格式文档。
- 初始化
根据相应解析接口定义DocSplit类,以使用华为Pangu DocSplit为例。
其中,filePath指的是需要解析的文档路径;mode为分割解析模式,具体定义如下:
0 - 返回文档的原始段落,不做其他处理。
1 - 根据标注的书签或目录分段,一般适合有层级标签的word文档。
2 - 根据内容里的章节条分段,适合制度类文档。
3 - 根据长度分段,默认按照500字拆分,会尽量保留完整句子。
from pangukitsappdev.api.doc_split.factory import DocSplits from pangukitsappdev.api.doc_split.split_config import SplitConfig split_config = SplitConfig() split_config.file_path='/data/xxx.docx' split_api = DocSplits.of("pangu-doc", split_config)