盘古大模型 PANGULARGEMODELS-Vector:Splitter

时间:2024-09-05 14:59:04

Splitter

文档拆分解析,提供对文档数据进行拆分解析能力,支持pdf/doc/docx/ppt/pptx/xls/xlsx/png/jpg/jpeg/bmp/gif/tiff/webp/pcx/ico/psd等格式文档。

  • 初始化

    根据相应解析接口定义DocSplit类,以使用华为Pangu DocSplit为例。

    其中,filePath指的是需要解析的文档路径;mode为分割解析模式,具体定义如下:

    0 - 返回文档的原始段落,不做其他处理。

    1 - 根据标注的书签或目录分段,一般适合有层级标签的word文档。

    2 - 根据内容里的章节条分段,适合制度类文档。

    3 - 根据长度分段,默认按照500字拆分,会尽量保留完整句子。

    from pangukitsappdev.api.doc_split.factory import DocSplits
    from pangukitsappdev.api.doc_split.split_config import SplitConfig
    split_config = SplitConfig()
    split_config.file_path='/data/xxx.docx'
    split_api = DocSplits.of("pangu-doc", split_config)
support.huaweicloud.com/ugobs-obs-pangulm/zh-cn_topic_0000001716597365.html