云服务器内容精选

  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 total Integer 返回的文档总数 最小值:1 最大值:65535 page_num Integer 页码 最小值:1 最大值:65535 page_size Integer 每页数量 最小值:1 最大值:65535 files Array of FileInfo objects 文件列表 数组长度:0 - 65535 表5 FileInfo 参数 参数类型 描述 id String 文件ID 最小长度:1 最大长度:64 task_id String 任务id 最小长度:0 最大长度:64 name String 文件名 最小长度:1 最大长度:255 repo_id String 知识库id 最小长度:0 最大长度:64 project_id String 项目id 最小长度:1 最大长度:64 application_id String 应用id 最小长度:1 最大长度:64 status String 文件状态 SUC CES S 执行成功 ERROR 执行失败 PENDING 初始状态,未处理 RUNNING 执行中 IMPORT_EXCEPTION 导入异常 FILE_ENCODING_ERROR 编码错误 最小长度:0 最大长度:64 枚举值: SUCCESS ERROR PENDING RUNNING IMPORT_EXCEPTION FILE_ENCODING_ERROR type String 文件类型 最小长度:1 最大长度:64 size Long 文件大小(bytes) 最小值:1 最大值:99999999 category String 文档目录,单值,对应目录树中的叶子节点。 建议格式为 叶子节点目录名称(目录 ID),如:专利(3166-1)。 最小长度:0 最大长度:255 create_user String 创建者,指上传文件的用户,可能不存在该键值 最小长度:1 最大长度:64 create_time String 创建时间,指上传文件的时间,例如:1692848139119 最小长度:1 最大长度:13 update_time String 更新时间,可能不存在该键值 最小长度:1 最大长度:13 file_path String 文件地址,可能不存在该键值 最小长度:0 最大长度:65535 upload_desc String 上传说明,可能不存在该键值 最小长度:0 最大长度:65535 file_extract_conf FileExtractConf object 文件抽取配置项 tags Array of strings 文档标签,可以使用标签对文档进行自动分组,用于筛选过滤。 注意事项: 1.建议不区分大小写,例如, Approved and approved 是同一个标签 2.文档可以有一个或多个标签 3.建议格式为:标签名称:标签值 ,如果能够保证标签值不冲突,也可以直接使用 标签值,例如 《冰箱使用说明书》对应的产品型号:ProductModel:BCD-551WLCTDAFA5U1 《一句顶一万句》的作者是:刘震云 《外观设计专利交底书模板》 的专业领域是:法务领域 最小长度:1 最大长度:255 数组长度:0 - 250 fail_count Integer 上传失败的数据条数 最小值:0 最大值:65535 fail_records_expire_time String 上传失败的时间戳 最小长度:1 最大长度:13 表6 FileExtractConf 参数 参数类型 描述 parse_conf ParseConf object 文档解析配置,包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页 split_conf SplitConf object 拆分配置,包括分段方式设置、层级解析模式设置、标题层级深度设置、标题保存方式设置、分段长度配置、标题匹配pattern配置等 id String 文档解析ID 最小长度:0 最大长度:64 表7 ParseConf 参数 参数类型 描述 ocr_enabled Boolean ocr增强 缺省值:false image_enabled Boolean 图片解析 缺省值:false header_footer_enabled Boolean 解析页眉页脚 缺省值:false catalog_enabled Boolean 解析目录页 缺省值:false image_conf String 图片解析开启后(TEXT 提取图片文本、IMAGE 保留原图) 缺省值:TEXT 枚举值: TEXT IMAGE 表8 SplitConf 参数 参数类型 描述 split_mode String 分段设置/层级解析模型 LENGTH-长度拆分,即为字数拆分 CATA LOG -层级分段下的自动解析 RULE- 层级分段下的规则解析 AUTO- 自动拆分,自动识别文档格式匹配适合的拆分解析方式 缺省值:AUTO 枚举值: LENGTH CATALOG RULE AUTO separator_ids Array of strings 分段标识符ID列表 文件解析分类 default.separator.list[0].id=space_en default.separator.list[0].separator=\u0020 default.separator.list[0].locale=en default.separator.list[1].id=period_zh default.separator.list[1].separator=。 default.separator.list[1].locale=zh default.separator.list[2].id=period_en default.separator.list[2].separator=. default.separator.list[2].locale=en default.separator.list[3].id=exclamation_mark_zh default.separator.list[3].separator=! default.separator.list[3].locale=zh default.separator.list[4].id=exclamation_mark_en default.separator.list[4].separator=! default.separator.list[4].locale=en default.separator.list[5].id=question_mark_zh default.separator.list[5].separator=? default.separator.list[5].locale=zh default.separator.list[6].id=question_mark_en default.separator.list[6].separator=? default.separator.list[6].locale=en default.separator.list[7].id=comma_zh default.separator.list[7].separator=, default.separator.list[7].locale=zh default.separator.list[8].id=comma_en default.separator.list[8].separator=, default.separator.list[8].locale=en 最小长度:1 最大长度:128 数组长度:1 - 100 rule_regex_id String 用户定义解析规则ID 最小长度:1 最大长度:256 chunk_size Integer 分段预计长度 最小值:0 最大值:6000 缺省值:500 title_level Integer 标题层级深度 最小值:1 最大值:10 缺省值:3 combine_title Boolean false 保留最后一级 true 保存多标题组合 缺省值:false merge_titles Boolean 是否跨标题合并,不同标题段落文字较少时,会自动合并到指定的分段长度,有助于生成更全面的结果 状态码: 400 表9 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512 状态码: 500 表10 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512
  • URI GET /v1/koosearch/repos/{repo_id}/structured-data/search 表1 路径参数 参数 是否必选 参数类型 描述 repo_id 是 String 知识库ID,1~64个字符,只能包含数字、字母、中划线和下划线。 获取方式: 账号登录 KooSearch 体验平台,在左侧导航栏选择:"知识库管理" ,在此界面获取"知识库ID"字段的值,表示该知识库在向量数据库中存储的ID,具有唯一性 最小长度:1 最大长度:64 表2 Query参数 参数 是否必选 参数类型 描述 file_name 是 String 结构化数据的文件名 最小长度:1 最大长度:1024 file_status 是 String 文件状态 SUCCESS - 上传成功 ERROR - 上传失败 PENDING - 排队解析中 RUNNING - 正在解析 IMPORT_EXCEPTION - 导入异常 FILE_ENCODING_ERROR - 文章解码异常 最小长度:0 最大长度:128 枚举值: SUCCESS ERROR PENDING RUNNING IMPORT_EXCEPTION FILE_ENCODING_ERROR page_num 否 Integer 请求页码 最小值:1 最大值:65535 缺省值:1 page_size 否 Integer 请求限定响应结果的分页大小,例如5条/页,10条/页 最小值:1 最大值:65535 缺省值:10 ids 否 Array 精准查询文件id列表 数组长度:1 - 64
  • 创建图谱简介 数据是 知识图谱 的基础,在 知识图谱服务 创建知识图谱时,需要从OBS导入用于构建知识图谱的基础数据。知识图谱服务支持的数据包括XLSX、 CS V、JSON、多行单句文本格式,详情请见数据格式要求,其中多行单句文本格式的数据属于非结构化数据。 本章节提供一个与人物、电影有关的非结构化数据自定义信息抽取模型并使用自定义抽取模型创建知识图谱的流程,帮助您快速熟悉知识图谱自定义信息抽取模型创建过程和使用非结构化数据创建图谱的过程。步骤如下: 创建信息抽取模型:以在ModelArts控制台上标注数据为例,介绍信息抽取模型的构建流程。 使用自定义抽取模型创建图谱:介绍通过自定义的信息抽取模型创建知识图谱的流程。 父主题: 非结构化数据创建图谱