华为云用户手册

  • URI GET /v1/koosearch/repos/{repo_id} 表1 路径参数 参数 是否必选 参数类型 描述 repo_id 是 String 知识库ID,1~64个字符,只能包含数字、字母、中划线和下划线。 获取方式: 账号登录 KooSearch 体验平台,在左侧导航栏选择:"知识库管理" ,在此界面获取"知识库ID"字段的值,表示该知识库在向量数据库中存储的ID,具有唯一性 最小长度:1 最大长度:64
  • 响应示例 状态码: 200 知识库详情响应体 { "id" : "1234545", "name" : "知识库123", "detail" : "金融知识库", "status" : "OPEN", "create_user" : "", "create_time" : "", "update_time" : "1693921595857", "fields" : [ { "name" : "id", "field_type" : "keyword", "name_zh" : "id" } ] }
  • URI GET /v1/koosearch/repos/{repo_id}/faqs/{faq_id} 表1 路径参数 参数 是否必选 参数类型 描述 faq_id 是 String FAQ ID,1~64个字符,只能包含数字、字母、中划线和下划线,且必须以字母开头。 获取方式: 账号登录KooSearch体验平台 左侧导航栏选择:"KooSearch-KooSearch文档问答" 根据"名称/ID",选择购买的服务,单击"问答",进入KooSearch文档问答管理页面 左侧导航栏选择:"知识库管理" ,在知识库列表中,选择目标知识库,单击其ID进入 单击"FAQ管理",即可查看FAQ列表,获取某条FAQ的ID 最小长度:1 最大长度:64 repo_id 是 String 知识库ID,1~64个字符,只能包含数字、字母、中划线和下划线。 获取方式: 账号登录KooSearch体验平台,在左侧导航栏选择:"知识库管理" ,在此界面获取"知识库ID"字段的值,表示该知识库在向量数据库中存储的ID,具有唯一性 最小长度:1 最大长度:64
  • 响应示例 状态码: 200 成功 { "id" : "5323205cfa9244b385ff5968ece0cd9a", "repo_id" : "123", "question" : "问题", "answer" : "答案", "status" : 0, "create_time" : "1716284755573", "update_time" : "1716284755573" }
  • 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 chat_id String 会话ID,会话的唯一标识 最小长度:1 最大长度:64 knowledge_repo_id String 知识库ID,当前会话参考的知识库ID 最小长度:1 最大长度:64 create_date_time String 会话发生的时间戳 最小长度:1 最大长度:13 is_del Integer 当前对话是否删除标记,0:未删除,1:已删除 枚举值: 0 1 question_models Array of QuestionModel objects 当前会话详情,包括问题、答案、参考分片信息等 数组长度:0 - 65535 表4 QuestionModel 参数 参数类型 描述 question_id String 问题ID 最小长度:1 最大长度:64 chat_id String 会话ID 最小长度:1 最大长度:64 question String 问题 最小长度:1 最大长度:65535 answer String 答案 最小长度:1 最大长度:65535 create_date_time String 对话发生时间 最小长度:1 最大长度:13 feedback_status Integer 是否有问题反馈 枚举值: 0 1 question_reference_models Array of QuestionReferenceModel objects 当前答案的参考文件和分片详情 数组长度:0 - 65535 表5 QuestionReferenceModel 参数 参数类型 描述 id Integer 参考分片ID 最小值:0 最大值:2147483647 reference_id String 参考文件ID 最小长度:1 最大长度:64 doc_title String 参考文件名称 最小长度:1 最大长度:65535 subtitle String 参考分片子标题 最小长度:1 最大长度:65535 doc_content String 参考分片内容 最小长度:1 最大长度:65535 score Float 参考分片与问题的相关性得分 最小值:0.0 最大值:200.0
  • 响应示例 状态码: 200 成功 { "chat_id" : "9eafef43-0fc5-4f62-891a-34810ada9f20", "knowledge_repo_id" : "2e1524cc-cf40-4607-9134-1204f320b868", "create_date_time" : "1717641946646", "is_del" : 0, "question_models" : [ { "question_id" : "7ae2d834-591a-4a2b-bba5-53802c93998f", "chat_id" : "9eafef43-0fc5-4f62-891a-34810ada9f20", "question" : "人身保险业务包括哪些子业务?", "answer" : "根据提供的文档内容,人身保险业务包括以下子业务:\n\n-人寿保险: 这是指在被保险人生存期间,保险人按照合同约定的时间,向被保险人或者其指定的受益人支付保险金的保险。 \n-健康保险: 这类保险主要是为了减轻因疾病、意外伤害或其他健康问题导致的个人或家庭的经济负担。 \n-意外伤害保险: 这种保险是为了保障被保险人因意外伤害导致身体损害或死亡时,保险人给予的经济补偿。 \n\n文档中还提到,经营财产保险业务的保险公司经国务院保险监督管理机构批准,可以经营短期健康保险业务和意外伤害保险业务。这意味着在特定条件下,健康保险和意外伤害保险可以与财产保险业务相结合。", "create_date_time" : "1717641952936", "feedback_status" : 0, "question_reference_models" : [ { "id" : 2141249532, "reference_id" : "aa1298dfe8a2cfd3f4392019231137d2", "doc_title" : "中国人民共和国保险法.pdf", "subtitle" : "中国人民共和国保险法\n中华人民共和国保险法 第四章 保险经营规则(1)", "doc_content" : "第九十五条 保险公司的业务范围:\n(一)人身保险业务,包括人寿保险、健康保险、意外伤害保险等保险业务;\n(二)财产保险业务,包括财产损失保险、责任保险、信用保险、保证保险等保险业务;\n(三)国务院保险监督管理机构批准的与保险有关的其他业务。\n保险人不得兼营人身保险业务和财产保险业务。但是,经营财产保险业务的保险公司经国务院保险监督管理机构批准,可以经营短期健康保险业务和意外伤害保险业务。\n保险公司应当在国务院保险监督管理机构依法批准的业务范围内从事保险经营活动。\n第九十六条 经国务院保险监督管理机构批准,保险公司可以经营本法第九十五条规定的保险业务的下列再保险业务:\n(一)分出保险;\n(二)分入保险。\n第九十七条 保险公司应当按照其注册资本总额的百分之二十提取保证金,存入国务院保险监督管理机构指定的银行,除公司清算时用于清偿债务外,不得动用。\n第九十八条 保险公司应当根据保障被保险人利益、保证偿付能力的原则,提取各项责任准备金。\n保险公司提取和结转责任准备金的具体办法,由国务院保险监督管理机构制定。\n第九十九条 保险公司应当依法提取公积金。\n第一百条 保险公司应当缴纳保险保障基金。", "score" : 0.478392 }, { "id" : 2141249533, "reference_id" : "aa1298dfe8a2cfd3f4392019231137d2", "doc_title" : "中国人民共和国保险法.pdf", "subtitle" : "中国人民共和国保险法\n中华人民共和国保险法 第一节 一般规定(3)", "doc_content" : "保险人在合同订立时已经知道投保人未如实告知的情况的,保险人不得解除合同;发生保险事故的,保险人应当承担赔偿或者给付保险金的责任。\n保险事故是指保险合同约定的保险责任范围内的事故。\n第十七条 订立保险合同,采用保险人提供的格式条款的,保险人向投保人提供的投保单应当附格式条款,保险人应当向投保人说明合同的内容。\n对保险合同中免除保险人责任的条款,保险人在订立合同时应当在投保单、保险单或者其他保险凭证上作出足以引起投保人注意的提示,并对该条款的内容以书面或者口头形式向投保人作出明确说明;未作提示或者明确说明的,该条款不产生效力。\n第十八条 保险合同应当包括下列事项:\n(一)保险人的名称和住所;\n(二)投保人、被保险人的姓名或者名称、住所,以及人身保险的受益人的姓名或者名称、住所;\n(三)保险标的;\n(四)保险责任和责任免除;\n(五)保险期间和保险责任开始时间;\n(六)保险金额;\n(七)保险费以及支付办法;\n(八)保险金赔偿或者给付办法;\n(九)违约责任和争议处理;\n(十)订立合同的年、月、日。\n投保人和保险人可以约定与保险有关的其他事项。\n受益人是指人身保险合同中由被保险人或者投保人指定的", "score" : 0.0246569 }, { "id" : 2141249534, "reference_id" : "aa1298dfe8a2cfd3f4392019231137d2", "doc_title" : "中国人民共和国保险法.pdf", "subtitle" : "中国人民共和国保险法\n中华人民共和国保险法 第一章 总则", "doc_content" : "第一条 为了规范保险活动,保护保险活动当事人的合法权益,加强对保险业的监督管理,维护社会经济秩序和社会公共利益,促进保险事业的健康发展,制定本法。\n第二条 本法所称保险,是指投保人根据合同约定,向保险人支付保险费,保险人对于合同约定的可能发生的事故因其发生所造成的财产损失承担赔偿保险金责任,或者当被保险人死亡、伤残、疾病或者达到合同约定的年龄、期限等条件时承担给付保险金责任的商业保险行为。\n第三条 在中华人民共和国境内从事保险活动,适用本法。\n第四条 从事保险活动必须遵守法律、行政法规,尊重社会公德,不得损害社会公共利益。\n第五条 保险活动当事人行使权利、履行义务应当遵循诚实信用原则。\n第六条 保险业务由依照本法设立的保险公司以及法律﹑行政法规规定的其他保险组织经营,其他单位和个人不得经营保险业务。\n第七条 在中华人民共和国境内的法人和其他组织需要办理境内保险的,应当向中华人民共和国境内的保险公司投保。\n第八条 保险业和银行业、证券业、信托业实行分业经营、分业管理,保险公司与银行、证券、信托业务机构分别设立。国家另有规定的除外。\n第九条 国务院保险监督管理机构依法对保险业实施监督管理。\n国务院保险监督管理机构根据履行职责的需要设立派出机构。派出机构按照国务院保险监督管理机构的授权履行监督管理职责。", "score" : 0.014672 } ] } ] }
  • 请求示例 配置示例 /v1/koosearch/repos/919e8b10-b0c4-4bcd-9d5a-8ebb69594514/search-prompt { "prompt" : "你是一名问题回答助手,请参考以下给出的文章回答问题。在回答问题之前,请你先仔细判给出的文章是否可以回答问题。如果给出的文章与问题不相关,则直接输出“抱歉,我无法回答此次问题“;如果给出的文章与问题相关,则参考给出的文章回答问题。\n给出的文章:\n{0}\n问题:{1}\n请你按照要求进行仔细判断后,给出你的回答:}" }
  • URI POST /v1/koosearch/repos/{repo_id}/search-prompt 表1 路径参数 参数 是否必选 参数类型 描述 repo_id 是 String 知识库ID,1~64个字符,只能包含数字、字母、中划线和下划线。 获取方式: 账号登录KooSearch体验平台,在左侧导航栏选择:"知识库管理" ,在此界面获取"知识库ID"字段的值,表示该知识库在向量数据库中存储的ID,具有唯一性 最小长度:1 最大长度:64
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 repo_id String 响应字段 最小长度:1 最大长度:64 状态码: 400 表5 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512 状态码: 500 表6 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512
  • URI POST /v1/koosearch/repos/{repo_id}/common-prompt 表1 路径参数 参数 是否必选 参数类型 描述 repo_id 是 String 知识库ID,1~64个字符,只能包含数字、字母、中划线和下划线。 获取方式: 账号登录KooSearch体验平台,在左侧导航栏选择:"知识库管理" ,在此界面获取"知识库ID"字段的值,表示该知识库在向量数据库中存储的ID,具有唯一性 最小长度:1 最大长度:64
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 repo_id String 响应字段 最小长度:1 最大长度:64 状态码: 400 表5 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512 状态码: 500 表6 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512
  • 请求示例 配置示例 /v1/koosearch/repos/919e8b10-b0c4-4bcd-9d5a-8ebb69594514/common-prompt { "prompt" : "你是一名问题回答助手,请参考以下给出的文章回答问题。在回答问题之前,请你先仔细判给出的文章是否可以回答问题。如果给出的文章与问题不相关,则直接输出“抱歉,我无法回答此次问题“;如果给出的文章与问题相关,则参考给出的文章回答问题。\n给出的文章:\n{0}\n问题:{1}\n请你按照要求进行仔细判断后,给出你的回答:}" }
  • 响应示例 状态码: 200 搜索结果返回体 { "doc_list" : [ { "file_id" : "123abc", "title" : "人工智能.doc", "content" : "人工智能", "update_date_time" : "134554", "doc_type" : "doc", "file_path" : "uni-search/v1/人工智能.doc", "score" : 0.9999 } ], "total" : 12 }
  • 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 doc_list Array of ChatReferenceInfo objects 文档列表 数组长度:1 - 65535 total Integer 总数 最小值:1 最大值:65535 表4 ChatReferenceInfo 参数 参数类型 描述 file_id String 文件id(或FAQ id) 最小长度:1 最大长度:64 title String 标题 最小长度:1 最大长度:65535 content String 文本内容 最小长度:1 最大长度:65535 big_content String 内容上下文,比如未分片的原始表格。 注意: (1)搜索接口可能有值 (2)问答接口会将big_content替换到content,此字段清空 最小长度:0 最大长度:100000 update_date_time String 更新时间 最小长度:1 最大长度:64 doc_type String 文档类型(doc-文档,faq-问答) 最小长度:1 最大长度:64 file_path String 文档归档路径 最小长度:1 最大长度:64 category String 文档目录,单值,对应目录树中的叶子节点 最小长度:4 最大长度:255 tags Array of strings 文档标签列表 最小长度:4 最大长度:255 数组长度:0 - 250 score Float ES打分 最小值:0 最大值:10000 subtitle String 文档子标题 最小长度:1 最大长度:65535 repo_id String 知识库标识 最小长度:1 最大长度:64
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 total Integer 返回的文档总数 最小值:1 最大值:65535 page_num Integer 页码 最小值:1 最大值:65535 page_size Integer 每页数量 最小值:1 最大值:65535 files Array of FileInfo objects 文件列表 数组长度:0 - 65535 表5 FileInfo 参数 参数类型 描述 id String 文件ID 最小长度:1 最大长度:64 task_id String 任务id 最小长度:0 最大长度:64 name String 文件名 最小长度:1 最大长度:255 repo_id String 知识库id 最小长度:0 最大长度:64 project_id String 项目id 最小长度:1 最大长度:64 application_id String 应用id 最小长度:1 最大长度:64 status String 文件状态 SUC CES S 执行成功 ERROR 执行失败 PENDING 初始状态,未处理 RUNNING 执行中 IMPORT_EXCEPTION 导入异常 FILE_ENCODING_ERROR 编码错误 最小长度:0 最大长度:64 枚举值: SUCCESS ERROR PENDING RUNNING IMPORT_EXCEPTION FILE_ENCODING_ERROR type String 文件类型 最小长度:1 最大长度:64 size Long 文件大小(bytes) 最小值:1 最大值:99999999 category String 文档目录,单值,对应目录树中的叶子节点。 建议格式为 叶子节点目录名称(目录 ID),如:专利(3166-1)。 最小长度:0 最大长度:255 create_user String 创建者,指上传文件的用户,可能不存在该键值 最小长度:1 最大长度:64 create_time String 创建时间,指上传文件的时间,例如:1692848139119 最小长度:1 最大长度:13 update_time String 更新时间,可能不存在该键值 最小长度:1 最大长度:13 file_path String 文件地址,可能不存在该键值 最小长度:0 最大长度:65535 upload_desc String 上传说明,可能不存在该键值 最小长度:0 最大长度:65535 file_extract_conf FileExtractConf object 文件抽取配置项 tags Array of strings 文档标签,可以使用标签对文档进行自动分组,用于筛选过滤。 注意事项: 1.建议不区分大小写,例如, Approved and approved 是同一个标签 2.文档可以有一个或多个标签 3.建议格式为:标签名称:标签值 ,如果能够保证标签值不冲突,也可以直接使用 标签值,例如 《冰箱使用说明书》对应的产品型号:ProductModel:BCD-551WLCTDAFA5U1 《一句顶一万句》的作者是:刘震云 《外观设计专利交底书模板》 的专业领域是:法务领域 最小长度:1 最大长度:255 数组长度:0 - 250 fail_count Integer 上传失败的数据条数 最小值:0 最大值:65535 fail_records_expire_time String 上传失败的时间戳 最小长度:1 最大长度:13 表6 FileExtractConf 参数 参数类型 描述 parse_conf ParseConf object 文档解析配置,包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页 split_conf SplitConf object 拆分配置,包括分段方式设置、层级解析模式设置、标题层级深度设置、标题保存方式设置、分段长度配置、标题匹配pattern配置等 id String 文档解析ID 最小长度:0 最大长度:64 表7 ParseConf 参数 参数类型 描述 ocr_enabled Boolean ocr增强 缺省值:false image_enabled Boolean 图片解析 缺省值:false header_footer_enabled Boolean 解析页眉页脚 缺省值:false catalog_enabled Boolean 解析目录页 缺省值:false image_conf String 图片解析开启后(TEXT 提取图片文本、IMAGE 保留原图) 缺省值:TEXT 枚举值: TEXT IMAGE 表8 SplitConf 参数 参数类型 描述 split_mode String 分段设置/层级解析模型 LENGTH-长度拆分,即为字数拆分 CATA LOG -层级分段下的自动解析 RULE- 层级分段下的规则解析 AUTO- 自动拆分,自动识别文档格式匹配适合的拆分解析方式 缺省值:AUTO 枚举值: LENGTH CATALOG RULE AUTO separator_ids Array of strings 分段标识符ID列表 文件解析分类 default.separator.list[0].id=space_en default.separator.list[0].separator=\u0020 default.separator.list[0].locale=en default.separator.list[1].id=period_zh default.separator.list[1].separator=。 default.separator.list[1].locale=zh default.separator.list[2].id=period_en default.separator.list[2].separator=. default.separator.list[2].locale=en default.separator.list[3].id=exclamation_mark_zh default.separator.list[3].separator=! default.separator.list[3].locale=zh default.separator.list[4].id=exclamation_mark_en default.separator.list[4].separator=! default.separator.list[4].locale=en default.separator.list[5].id=question_mark_zh default.separator.list[5].separator=? default.separator.list[5].locale=zh default.separator.list[6].id=question_mark_en default.separator.list[6].separator=? default.separator.list[6].locale=en default.separator.list[7].id=comma_zh default.separator.list[7].separator=, default.separator.list[7].locale=zh default.separator.list[8].id=comma_en default.separator.list[8].separator=, default.separator.list[8].locale=en 最小长度:1 最大长度:128 数组长度:1 - 100 rule_regex_id String 用户定义解析规则ID 最小长度:1 最大长度:256 chunk_size Integer 分段预计长度 最小值:0 最大值:6000 缺省值:500 title_level Integer 标题层级深度 最小值:1 最大值:10 缺省值:3 combine_title Boolean false 保留最后一级 true 保存多标题组合 缺省值:false merge_titles Boolean 是否跨标题合并,不同标题段落文字较少时,会自动合并到指定的分段长度,有助于生成更全面的结果 状态码: 400 表9 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512 状态码: 500 表10 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512
  • URI GET /v1/koosearch/repos/{repo_id}/structured-data/search 表1 路径参数 参数 是否必选 参数类型 描述 repo_id 是 String 知识库ID,1~64个字符,只能包含数字、字母、中划线和下划线。 获取方式: 账号登录KooSearch体验平台,在左侧导航栏选择:"知识库管理" ,在此界面获取"知识库ID"字段的值,表示该知识库在向量数据库中存储的ID,具有唯一性 最小长度:1 最大长度:64 表2 Query参数 参数 是否必选 参数类型 描述 file_name 是 String 结构化数据的文件名 最小长度:1 最大长度:1024 file_status 是 String 文件状态 SUCCESS - 上传成功 ERROR - 上传失败 PENDING - 排队解析中 RUNNING - 正在解析 IMPORT_EXCEPTION - 导入异常 FILE_ENCODING_ERROR - 文章解码异常 最小长度:0 最大长度:128 枚举值: SUCCESS ERROR PENDING RUNNING IMPORT_EXCEPTION FILE_ENCODING_ERROR page_num 否 Integer 请求页码 最小值:1 最大值:65535 缺省值:1 page_size 否 Integer 请求限定响应结果的分页大小,例如5条/页,10条/页 最小值:1 最大值:65535 缺省值:10 ids 否 Array 精准查询文件id列表 数组长度:1 - 64
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 total Integer 返回的文档总数 最小值:1 最大值:65535 page_num Integer 页码 最小值:1 最大值:65535 page_size Integer 每页数量 最小值:1 最大值:65535 files Array of FileInfo objects 文件列表 数组长度:0 - 65535 表5 FileInfo 参数 参数类型 描述 id String 文件ID 最小长度:1 最大长度:64 task_id String 任务id 最小长度:0 最大长度:64 name String 文件名 最小长度:1 最大长度:255 repo_id String 知识库id 最小长度:0 最大长度:64 project_id String 项目id 最小长度:1 最大长度:64 application_id String 应用id 最小长度:1 最大长度:64 status String 文件状态 SUCCESS 执行成功 ERROR 执行失败 PENDING 初始状态,未处理 RUNNING 执行中 IMPORT_EXCEPTION 导入异常 FILE_ENCODING_ERROR 编码错误 最小长度:0 最大长度:64 枚举值: SUCCESS ERROR PENDING RUNNING IMPORT_EXCEPTION FILE_ENCODING_ERROR type String 文件类型 最小长度:1 最大长度:64 size Long 文件大小(bytes) 最小值:1 最大值:99999999 category String 文档目录,单值,对应目录树中的叶子节点。 建议格式为 叶子节点目录名称(目录 ID),如:专利(3166-1)。 最小长度:0 最大长度:255 create_user String 创建者,指上传文件的用户,可能不存在该键值 最小长度:1 最大长度:64 create_time String 创建时间,指上传文件的时间,例如:1692848139119 最小长度:1 最大长度:13 update_time String 更新时间,可能不存在该键值 最小长度:1 最大长度:13 file_path String 文件地址,可能不存在该键值 最小长度:0 最大长度:65535 upload_desc String 上传说明,可能不存在该键值 最小长度:0 最大长度:65535 file_extract_conf FileExtractConf object 文件抽取配置项 tags Array of strings 文档标签,可以使用标签对文档进行自动分组,用于筛选过滤。 注意事项: 1.建议不区分大小写,例如, Approved and approved 是同一个标签 2.文档可以有一个或多个标签 3.建议格式为:标签名称:标签值 ,如果能够保证标签值不冲突,也可以直接使用 标签值,例如 《冰箱使用说明书》对应的产品型号:ProductModel:BCD-551WLCTDAFA5U1 《一句顶一万句》的作者是:刘震云 《外观设计专利交底书模板》 的专业领域是:法务领域 最小长度:1 最大长度:255 数组长度:0 - 250 fail_count Integer 上传失败的数据条数 最小值:0 最大值:65535 fail_records_expire_time String 上传失败的时间戳 最小长度:1 最大长度:13 表6 FileExtractConf 参数 参数类型 描述 parse_conf ParseConf object 文档解析配置,包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页 split_conf SplitConf object 拆分配置,包括分段方式设置、层级解析模式设置、标题层级深度设置、标题保存方式设置、分段长度配置、标题匹配pattern配置等 id String 文档解析ID 最小长度:0 最大长度:64 表7 ParseConf 参数 参数类型 描述 ocr_enabled Boolean ocr增强 缺省值:false image_enabled Boolean 图片解析 缺省值:false header_footer_enabled Boolean 解析页眉页脚 缺省值:false catalog_enabled Boolean 解析目录页 缺省值:false image_conf String 图片解析开启后(TEXT 提取图片文本、IMAGE 保留原图) 缺省值:TEXT 枚举值: TEXT IMAGE 表8 SplitConf 参数 参数类型 描述 split_mode String 分段设置/层级解析模型 LENGTH-长度拆分,即为字数拆分 CATALOG-层级分段下的自动解析 RULE- 层级分段下的规则解析 AUTO- 自动拆分,自动识别文档格式匹配适合的拆分解析方式 缺省值:AUTO 枚举值: LENGTH CATALOG RULE AUTO separator_ids Array of strings 分段标识符ID列表 文件解析分类 default.separator.list[0].id=space_en default.separator.list[0].separator=\u0020 default.separator.list[0].locale=en default.separator.list[1].id=period_zh default.separator.list[1].separator=。 default.separator.list[1].locale=zh default.separator.list[2].id=period_en default.separator.list[2].separator=. default.separator.list[2].locale=en default.separator.list[3].id=exclamation_mark_zh default.separator.list[3].separator=! default.separator.list[3].locale=zh default.separator.list[4].id=exclamation_mark_en default.separator.list[4].separator=! default.separator.list[4].locale=en default.separator.list[5].id=question_mark_zh default.separator.list[5].separator=? default.separator.list[5].locale=zh default.separator.list[6].id=question_mark_en default.separator.list[6].separator=? default.separator.list[6].locale=en default.separator.list[7].id=comma_zh default.separator.list[7].separator=, default.separator.list[7].locale=zh default.separator.list[8].id=comma_en default.separator.list[8].separator=, default.separator.list[8].locale=en 最小长度:1 最大长度:128 数组长度:1 - 100 rule_regex_id String 用户定义解析规则ID 最小长度:1 最大长度:256 chunk_size Integer 分段预计长度 最小值:0 最大值:6000 缺省值:500 title_level Integer 标题层级深度 最小值:1 最大值:10 缺省值:3 combine_title Boolean false 保留最后一级 true 保存多标题组合 缺省值:false merge_titles Boolean 是否跨标题合并,不同标题段落文字较少时,会自动合并到指定的分段长度,有助于生成更全面的结果 状态码: 400 表9 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512 状态码: 500 表10 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512
  • URI GET /v1/koosearch/repos/{repo_id}/files 表1 路径参数 参数 是否必选 参数类型 描述 repo_id 是 String 知识库ID,1~64个字符,只能包含数字、字母、中划线和下划线。 获取方式: 账号登录KooSearch体验平台,在左侧导航栏选择:"知识库管理" ,在此界面获取"知识库ID"字段的值,表示该知识库在向量数据库中存储的ID,具有唯一性 最小长度:1 最大长度:64 表2 Query参数 参数 是否必选 参数类型 描述 file_name 否 String 文件名 最小长度:1 最大长度:1024 page_num 否 Integer 请求页码 最小值:1 最大值:65535 缺省值:1 page_size 否 Integer 请求限定响应结果的分页大小,例如5条/页,10条/页 最小值:1 最大值:65535 缺省值:10 category 否 String 文档目录,单值,对应目录树中的叶子节点 建议格式为 叶子节点目录名称(目录ID),如:专利(3166-1)。 最小长度:0 最大长度:255 ids 否 Array 查询文件id列表 最小长度:1 最大长度:64 数组长度:1 - 65535
  • 响应示例 状态码: 200 文档列表响应体 { "total" : 1, "page_num" : 1, "page_size" : 1, "files" : [ { "id" : "6e9abdb7-4626-492d-9f18-abad3b95572d", "name" : "successData.xlsx", "type" : "faq", "size" : 9834, "create_time" : "1700481265798" } ] }
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 total Integer 返回的文档总数 最小值:1 最大值:65535 page_num Integer 页码 最小值:1 最大值:65535 page_size Integer 每页数量 最小值:1 最大值:65535 files Array of FileInfo objects 文件列表 数组长度:0 - 65535 表5 FileInfo 参数 参数类型 描述 id String 文件ID 最小长度:1 最大长度:64 task_id String 任务id 最小长度:0 最大长度:64 name String 文件名 最小长度:1 最大长度:255 repo_id String 知识库id 最小长度:0 最大长度:64 project_id String 项目id 最小长度:1 最大长度:64 application_id String 应用id 最小长度:1 最大长度:64 status String 文件状态 SUCCESS 执行成功 ERROR 执行失败 PENDING 初始状态,未处理 RUNNING 执行中 IMPORT_EXCEPTION 导入异常 FILE_ENCODING_ERROR 编码错误 最小长度:0 最大长度:64 枚举值: SUCCESS ERROR PENDING RUNNING IMPORT_EXCEPTION FILE_ENCODING_ERROR type String 文件类型 最小长度:1 最大长度:64 size Long 文件大小(bytes) 最小值:1 最大值:99999999 category String 文档目录,单值,对应目录树中的叶子节点。 建议格式为 叶子节点目录名称(目录 ID),如:专利(3166-1)。 最小长度:0 最大长度:255 create_user String 创建者,指上传文件的用户,可能不存在该键值 最小长度:1 最大长度:64 create_time String 创建时间,指上传文件的时间,例如:1692848139119 最小长度:1 最大长度:13 update_time String 更新时间,可能不存在该键值 最小长度:1 最大长度:13 file_path String 文件地址,可能不存在该键值 最小长度:0 最大长度:65535 upload_desc String 上传说明,可能不存在该键值 最小长度:0 最大长度:65535 file_extract_conf FileExtractConf object 文件抽取配置项 tags Array of strings 文档标签,可以使用标签对文档进行自动分组,用于筛选过滤。 注意事项: 1.建议不区分大小写,例如, Approved and approved 是同一个标签 2.文档可以有一个或多个标签 3.建议格式为:标签名称:标签值 ,如果能够保证标签值不冲突,也可以直接使用 标签值,例如 《冰箱使用说明书》对应的产品型号:ProductModel:BCD-551WLCTDAFA5U1 《一句顶一万句》的作者是:刘震云 《外观设计专利交底书模板》 的专业领域是:法务领域 最小长度:1 最大长度:255 数组长度:0 - 250 fail_count Integer 上传失败的数据条数 最小值:0 最大值:65535 fail_records_expire_time String 上传失败的时间戳 最小长度:1 最大长度:13 表6 FileExtractConf 参数 参数类型 描述 parse_conf ParseConf object 文档解析配置,包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页 split_conf SplitConf object 拆分配置,包括分段方式设置、层级解析模式设置、标题层级深度设置、标题保存方式设置、分段长度配置、标题匹配pattern配置等 id String 文档解析ID 最小长度:0 最大长度:64 表7 ParseConf 参数 参数类型 描述 ocr_enabled Boolean ocr增强 缺省值:false image_enabled Boolean 图片解析 缺省值:false header_footer_enabled Boolean 解析页眉页脚 缺省值:false catalog_enabled Boolean 解析目录页 缺省值:false image_conf String 图片解析开启后(TEXT 提取图片文本、IMAGE 保留原图) 缺省值:TEXT 枚举值: TEXT IMAGE 表8 SplitConf 参数 参数类型 描述 split_mode String 分段设置/层级解析模型 LENGTH-长度拆分,即为字数拆分 CATALOG-层级分段下的自动解析 RULE- 层级分段下的规则解析 AUTO- 自动拆分,自动识别文档格式匹配适合的拆分解析方式 缺省值:AUTO 枚举值: LENGTH CATALOG RULE AUTO separator_ids Array of strings 分段标识符ID列表 文件解析分类 default.separator.list[0].id=space_en default.separator.list[0].separator=\u0020 default.separator.list[0].locale=en default.separator.list[1].id=period_zh default.separator.list[1].separator=。 default.separator.list[1].locale=zh default.separator.list[2].id=period_en default.separator.list[2].separator=. default.separator.list[2].locale=en default.separator.list[3].id=exclamation_mark_zh default.separator.list[3].separator=! default.separator.list[3].locale=zh default.separator.list[4].id=exclamation_mark_en default.separator.list[4].separator=! default.separator.list[4].locale=en default.separator.list[5].id=question_mark_zh default.separator.list[5].separator=? default.separator.list[5].locale=zh default.separator.list[6].id=question_mark_en default.separator.list[6].separator=? default.separator.list[6].locale=en default.separator.list[7].id=comma_zh default.separator.list[7].separator=, default.separator.list[7].locale=zh default.separator.list[8].id=comma_en default.separator.list[8].separator=, default.separator.list[8].locale=en 最小长度:1 最大长度:128 数组长度:1 - 100 rule_regex_id String 用户定义解析规则ID 最小长度:1 最大长度:256 chunk_size Integer 分段预计长度 最小值:0 最大值:6000 缺省值:500 title_level Integer 标题层级深度 最小值:1 最大值:10 缺省值:3 combine_title Boolean false 保留最后一级 true 保存多标题组合 缺省值:false merge_titles Boolean 是否跨标题合并,不同标题段落文字较少时,会自动合并到指定的分段长度,有助于生成更全面的结果 状态码: 400 表9 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512 状态码: 500 表10 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512
  • 请求示例 https://console.ulanqab.huawei.com/elasticsearch/unisearch-dev/v1/729cbd739854470da5426ed26bd900ca/unisearch-dev/v1/1ed40ceefc8d40f8b884edb6a84e7768/applications/fb9731ab-7085-474f-b6c7-64473586f0f3/uni-search/e8196714-3e6b-454e-8c23-61baff601ec9/faq/batch/search?page_num=1&page_size=10
  • URI GET /v1/koosearch/repos/{repo_id}/faqs/files 表1 路径参数 参数 是否必选 参数类型 描述 repo_id 是 String 知识库ID,1~64个字符,只能包含数字、字母、中划线和下划线。 获取方式: 账号登录KooSearch体验平台,在左侧导航栏选择:"知识库管理" ,在此界面获取"知识库ID"字段的值,表示该知识库在向量数据库中存储的ID,具有唯一性 最小长度:1 最大长度:64 表2 Query参数 参数 是否必选 参数类型 描述 file_name 否 String 文件名 最小长度:0 最大长度:255 file_status 否 String 文件状态 SUCCESS 上传成功 ERROR 上传失败 PENDING 上传等待 RUNNING 上传进行中 IMPORT_EXCEPTION 导入失败 FILE_ENCODING_ERROR 文件编码错误 最小长度:0 最大长度:128 枚举值: SUCCESS ERROR PENDING RUNNING IMPORT_EXCEPTION FILE_ENCODING_ERROR page_num 否 Integer 请求页码 最小值:1 最大值:65535 缺省值:1 page_size 否 Integer 请求限定响应结果的分页大小,例如5条/页,10条/页 最小值:1 最大值:65535 缺省值:10 ids 否 Array 精准查询id列表 最小长度:1 最大长度:64 数组长度:1 - 65535
  • 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 接口鉴权使用的Token,Token获取方式参考:获取 IAM 用户Token 最小长度:1 最大长度:1000000 表3 请求Body参数 参数 是否必选 参数类型 描述 regexs 是 Array of strings 规则list 最小长度:1 最大长度:200 数组长度:1 - 10
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 id String 修改的规则id 最小长度:1 最大长度:64 状态码: 400 表5 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512 状态码: 500 表6 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512
  • 请求示例 /v1/koosearch/repos/v22cca08-a83b-4518-8abf-0666ab5d635a { "rerank_model" : "string", "pangu_nlp_model" : "string", "file_extract" : { "parse_conf" : { "ocr_enabled" : false, "image_enabled" : false, "header_footer_enabled" : false, "catalog_enabled" : false, "image_conf" : "TEXT" }, "split_conf" : { "split_mode" : "AUTO", "separator_ids" : [ ], "rule_regex_id" : "string", "chunk_size" : 6000, "title_level" : 3, "combine_title" : true } }, "search_plan_category_ids" : [ "string" ], "rerank_enabled" : true, "top_k" : 500, "reference_count" : 10, "query_rewrite_enabled" : true }
  • 响应参数 状态码: 200 表11 响应Body参数 参数 参数类型 描述 repo_id String 知识库ID 最小长度:1 最大长度:64 状态码: 400 表12 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512 状态码: 500 表13 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512
  • URI PUT /v1/koosearch/repos/{repo_id} 表1 路径参数 参数 是否必选 参数类型 描述 repo_id 是 String 知识库ID,1~64个字符,只能包含数字、字母、中划线和下划线。 获取方式: 账号登录KooSearch体验平台,在左侧导航栏选择:"知识库管理" ,在此界面获取"知识库ID"字段的值,表示该知识库在向量数据库中存储的ID,具有唯一性 最小长度:1 最大长度:64
  • 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 rules Array of RuleRegexInfo objects 已配置的规则解析列表 数组长度:0 - 65535 表3 RuleRegexInfo 参数 参数类型 描述 id String 规则ID 最小长度:1 最大长度:65535 rule_regexs Array of strings 用户自定义规则内容 最小长度:1 最大长度:65535 数组长度:1 - 65535 状态码: 400 表4 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512 状态码: 500 表5 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512
  • URI GET /v1/koosearch/models/search 表1 Query参数 参数 是否必选 参数类型 描述 model_name 否 String 模型名称 最小长度:1 最大长度:64 model_type 否 String 模型类型,枚举值:embedding,rerank,nlp,search-plan,query2query 最小长度:1 最大长度:64 model_status 否 String 模型状态 最小长度:1 最大长度:64 page_num 否 Integer 请求页码 最小值:1 最大值:65535 缺省值:1 page_size 否 Integer 请求限定响应结果的分页大小,例如5条/页,10条/页 最小值:1 最大值:65535 缺省值:10
  • 响应示例 状态码: 200 模型列表 { "page_num" : 1, "page_size" : 1, "total" : 1, "models" : [ { "name" : "pangu_38b", "detail" : "pangu_38b", "type" : "nlp", "status" : "ready", "create_time" : "1716946517167", "update_time" : "1716946517167", "endpoint" : "http://10.0.0.169:31010", "extend_config" : { "deployment_id" : "123", "iam_info" : { "iam_enabled" : false, "agency_enabled" : false, "project_id" : "456" } } } ] }
共100000条