云服务器内容精选

  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 total Integer 返回的文档总数 最小值:1 最大值:65535 page_num Integer 页码 最小值:1 最大值:65535 page_size Integer 每页数量 最小值:1 最大值:65535 files Array of FileInfo objects 文件列表 数组长度:0 - 65535 表5 FileInfo 参数 参数类型 描述 id String 文件ID 最小长度:1 最大长度:64 task_id String 任务id 最小长度:0 最大长度:64 name String 文件名 最小长度:1 最大长度:255 repo_id String 知识库id 最小长度:0 最大长度:64 project_id String 项目id 最小长度:1 最大长度:64 application_id String 应用id 最小长度:1 最大长度:64 status String 文件状态 SUC CES S 执行成功 ERROR 执行失败 PENDING 初始状态,未处理 RUNNING 执行中 IMPORT_EXCEPTION 导入异常 FILE_ENCODING_ERROR 编码错误 最小长度:0 最大长度:64 枚举值: SUCCESS ERROR PENDING RUNNING IMPORT_EXCEPTION FILE_ENCODING_ERROR type String 文件类型 最小长度:1 最大长度:64 size Long 文件大小(bytes) 最小值:1 最大值:99999999 category String 文档目录,单值,对应目录树中的叶子节点。 建议格式为 叶子节点目录名称(目录 ID),如:专利(3166-1)。 最小长度:0 最大长度:255 create_user String 创建者,指上传文件的用户,可能不存在该键值 最小长度:1 最大长度:64 create_time String 创建时间,指上传文件的时间,例如:1692848139119 最小长度:1 最大长度:13 update_time String 更新时间,可能不存在该键值 最小长度:1 最大长度:13 file_path String 文件地址,可能不存在该键值 最小长度:0 最大长度:65535 upload_desc String 上传说明,可能不存在该键值 最小长度:0 最大长度:65535 file_extract_conf FileExtractConf object 文件抽取配置项 tags Array of strings 文档标签,可以使用标签对文档进行自动分组,用于筛选过滤。 注意事项: 1.建议不区分大小写,例如, Approved and approved 是同一个标签 2.文档可以有一个或多个标签 3.建议格式为:标签名称:标签值 ,如果能够保证标签值不冲突,也可以直接使用 标签值,例如 《冰箱使用说明书》对应的产品型号:ProductModel:BCD-551WLCTDAFA5U1 《一句顶一万句》的作者是:刘震云 《外观设计专利交底书模板》 的专业领域是:法务领域 最小长度:1 最大长度:255 数组长度:0 - 250 fail_count Integer 上传失败的数据条数 最小值:0 最大值:65535 fail_records_expire_time String 上传失败的时间戳 最小长度:1 最大长度:13 表6 FileExtractConf 参数 参数类型 描述 parse_conf ParseConf object 文档解析配置,包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页 split_conf SplitConf object 拆分配置,包括分段方式设置、层级解析模式设置、标题层级深度设置、标题保存方式设置、分段长度配置、标题匹配pattern配置等 id String 文档解析ID 最小长度:0 最大长度:64 表7 ParseConf 参数 参数类型 描述 ocr_enabled Boolean ocr增强 缺省值:false image_enabled Boolean 图片解析 缺省值:false header_footer_enabled Boolean 解析页眉页脚 缺省值:false catalog_enabled Boolean 解析目录页 缺省值:false image_conf String 图片解析开启后(TEXT 提取图片文本、IMAGE 保留原图) 缺省值:TEXT 枚举值: TEXT IMAGE 表8 SplitConf 参数 参数类型 描述 split_mode String 分段设置/层级解析模型 LENGTH-长度拆分,即为字数拆分 CATA LOG -层级分段下的自动解析 RULE- 层级分段下的规则解析 AUTO- 自动拆分,自动识别文档格式匹配适合的拆分解析方式 缺省值:AUTO 枚举值: LENGTH CATALOG RULE AUTO separator_ids Array of strings 分段标识符ID列表 文件解析分类 default.separator.list[0].id=space_en default.separator.list[0].separator=\u0020 default.separator.list[0].locale=en default.separator.list[1].id=period_zh default.separator.list[1].separator=。 default.separator.list[1].locale=zh default.separator.list[2].id=period_en default.separator.list[2].separator=. default.separator.list[2].locale=en default.separator.list[3].id=exclamation_mark_zh default.separator.list[3].separator=! default.separator.list[3].locale=zh default.separator.list[4].id=exclamation_mark_en default.separator.list[4].separator=! default.separator.list[4].locale=en default.separator.list[5].id=question_mark_zh default.separator.list[5].separator=? default.separator.list[5].locale=zh default.separator.list[6].id=question_mark_en default.separator.list[6].separator=? default.separator.list[6].locale=en default.separator.list[7].id=comma_zh default.separator.list[7].separator=, default.separator.list[7].locale=zh default.separator.list[8].id=comma_en default.separator.list[8].separator=, default.separator.list[8].locale=en 最小长度:1 最大长度:128 数组长度:1 - 100 rule_regex_id String 用户定义解析规则ID 最小长度:1 最大长度:256 chunk_size Integer 分段预计长度 最小值:0 最大值:6000 缺省值:500 title_level Integer 标题层级深度 最小值:1 最大值:10 缺省值:3 combine_title Boolean false 保留最后一级 true 保存多标题组合 缺省值:false merge_titles Boolean 是否跨标题合并,不同标题段落文字较少时,会自动合并到指定的分段长度,有助于生成更全面的结果 状态码: 400 表9 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512 状态码: 500 表10 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512
  • URI GET /v1/koosearch/repos/{repo_id}/structured-data/search 表1 路径参数 参数 是否必选 参数类型 描述 repo_id 是 String 知识库ID,1~64个字符,只能包含数字、字母、中划线和下划线。 获取方式: 账号登录 KooSearch 体验平台,在左侧导航栏选择:"知识库管理" ,在此界面获取"知识库ID"字段的值,表示该知识库在向量数据库中存储的ID,具有唯一性 最小长度:1 最大长度:64 表2 Query参数 参数 是否必选 参数类型 描述 file_name 是 String 结构化数据的文件名 最小长度:1 最大长度:1024 file_status 是 String 文件状态 SUCCESS - 上传成功 ERROR - 上传失败 PENDING - 排队解析中 RUNNING - 正在解析 IMPORT_EXCEPTION - 导入异常 FILE_ENCODING_ERROR - 文章解码异常 最小长度:0 最大长度:128 枚举值: SUCCESS ERROR PENDING RUNNING IMPORT_EXCEPTION FILE_ENCODING_ERROR page_num 否 Integer 请求页码 最小值:1 最大值:65535 缺省值:1 page_size 否 Integer 请求限定响应结果的分页大小,例如5条/页,10条/页 最小值:1 最大值:65535 缺省值:10 ids 否 Array 精准查询文件id列表 数组长度:1 - 64
  • URI GET /v1/koosearch/repos/{repo_id}/structured-data/{file_id}/fails 表1 路径参数 参数 是否必选 参数类型 描述 repo_id 是 String 知识库ID,1~64个字符,只能包含数字、字母、中划线和下划线。 获取方式: 账号登录KooSearch体验平台,在左侧导航栏选择:"知识库管理" ,在此界面获取"知识库ID"字段的值,表示该知识库在向量数据库中存储的ID,具有唯一性 最小长度:1 最大长度:64 file_id 是 String 文件ID,1~64个字符,只能包含数字、字母、中划线和下划线。 最小长度:1 最大长度:64
  • 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 - File 执行成功 状态码: 400 表4 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512 状态码: 500 表5 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512
  • 步骤1:准备数据 在创建信息抽取模型之前,您需要自行准备基础数据并上传至OBS桶及文件夹中。 由于数据安全原因,本样例不提供具体的样例数据,仅提供样例数据要求,要求如下: 数据格式 数据格式为短文本txt格式,文件内容示例如下: 张三的生日是1990年1月1日,身高175cm,出生于北京。 李四,著名导演,毕业于电影学院,代表作有《电影1》、《电影2》。 ... ... 数据划分 训练数据:80%数据用于训练信息抽取模型。 验证数据:20%数据用于验证信息抽取模型性能(即F1、P、R性能指标)。 训练数据量 训练一个基本可用的模型,标注数据量总数需要大于模型版本配置中的“batch_size”,且需大于20*三元组类型数量。 训练一个效果较好的模型,建议提供2万条以上的短句数据作为训练数据。 三元组类型 本样例构建的模型适用于人物、电影领域的信息抽取,限定抽取的三元组类型如表1所示。 表1 三元组类型 subject_type predicate object_type 人物 毕业院校 学校 影视作品 改编自 作品 影视作品 制片人 人物 人物 身高 Number 人物 丈夫 人物 影视作品 主演 人物 人物 出生日期 Date 影视作品 编剧 人物 影视作品 导演 人物 人物 祖籍 地点 人物 父亲 人物 人物 出生地 地点 影视作品 出品公司 企业 人物 妻子 人物 人物 母亲 人物 人物 国籍 国家 影视作品 上映时间 Date 按上文要求准备待标注的训练数据和模型数据,并保存至本地,训练数据命名为“annotation.txt”,模型数据命名为“corpus.txt”。 登录OBS服务,创建桶和文件夹,用于存放数据集。 创建名称为“kg-model”的OBS桶。 创建名称为“model-data”的文件夹用于存放未标注的数据集。 创建名称为“model-data-out”的文件夹用于存放已标记并发布的数据集。 创建名称为“graph-data”的文件夹用于存放创建图谱的数据集。 创建OBS桶和文件夹的操作指导请参见创建桶和新建文件夹。为保证数据能正常访问,请务必保证创建的OBS桶与KG服务在同一区域,桶的存储类别为“标准存储”。 参考上传文件,使用单个文件上传方式将本地准备的训练数据“annotation.txt”文件上传至OBS路径“kg-model/model-data”下,将本地准备的创建模型的数据文件“corpus.txt”上传至OBS路径“kg-model/graph-data”。