云服务器内容精选

  • 体验问答 在“体验平台”页面右上角单击“问答”,切换至问答体验页面。 在输入框中输入问题,单击,查看返回的答案。 图1 体验问答 表2 图标说明 图标 说明 认同内容,在对话框中输入正面反馈意见,单击“提交”。 不认同内容,在对话框中输入负面反馈意见,单击“提交”。 复制内容。 刷新内容。 查看答案参考源。在参考列表中,单击“阅读全文”,可查看文档原文。 说明: 当前针对上传的多栏排版docx文档,查看文档原文时存在内容显示错位及显示不全的问题。
  • 新建知识库 在 KooSearch 控制台,左侧导航栏选择“知识库管理”。 进入知识库管理页面。 在知识库管理页面,单击右上角“新建知识库”。 在“新建知识库”页面设置知识库信息。 在创建知识库页签填写“知识库名称”、选择“知识库语言”,填写知识库“描述”,单击“下一步”。 图1 创建知识库 在“解析拆分设置”页签配置解析设置和拆分设置,然后单击“下一步”。 解析设置:勾选需要解析的能力。 表1 解析设置 参数 说明 OCR增强 勾选后,即可调用OCR服务进行智能文档识别,如表格解析或扫描文件等。 解析图片 未勾选,在文档中遇到图片默认跳过,不处理图片。 勾选后,有两种解析方式可供选择: 提取图片文本:识别图片内文字。 仅保留原图:将图片提取后上传OBS桶,便于问答图文展示。 解析页眉页脚 未勾选,解析结果中不包含页眉页脚。 勾选后,解析结果中包含页眉页脚。 解析目录页 未勾选,解析结果中不包含目录页。 勾选后,解析结果中包含目录页。 拆分设置:即分段设置,选择分段方式。 表2 拆分设置 参数 说明 自动分段 系统根据文档特点自动选择合适的分段方式。 长度分段 默认按照段落进行拆分合并,如果段落过长则通过标识符进行分段。 分段标识符:分段方式为遇到所选符号即截断,符号之间没有优先级,最终分割后合并到预计最大长度。自定义分段中如果未命中分段标识符,分段将会失败。 分段预计长度:分段的最大长度,文档的正文如果超过设定的[最大长度],则截取[最大长度]的片段为新文档,随后回溯[分段重叠]字符,继续向后检查,直到文档结束。 层级分段 先按照文章的标题层级分段,再按照段落进行拆分合并,如果段落过长则通过标识符进行分段。 层级解析模式:可选择自动解析和规则解析。选择规则解析需要自定义层级规。 层级分段详情如表3所示。 表3 层级分段 参数 说明 层级解析模式 自动解析:按照系统规则自动解析。 规则解析: 由于不同文档的层次结构多样且不一致,针对不同的文档可自定义其文档层次解析规则,更好地解析切分文档从而提升基于文档知识问答的准确率。 自定义默认规则 将最常见的规则,作为默认规则可选,详情请参见提供的默认规则示例。 自定义解析规则 当前解析规则采用正则语言编写,可参见如表5示例。 标题层级深度 选择文章的标题层级深度。 标题保存方式 可选择“保存多标题组合”和“保存最后一级标题”。 分段标识符 分段方式为遇到所选符号即截断,符号之间没有优先级,最终分割后合并到预计最大长度。自定义分段中如果未命中分段标识符,分段将会失败。 分段预计长度 分段的最大长度,文档的正文如果超过设定的[最大长度],则截取[最大长度]的片段为新文档,随后回溯[分段重叠]字符,继续向后检查,直到文档结束。 跨标题合并 打开“跨标题合并”开关:不同标题段落文字较少时,会自动合并到指定的分段长度,有助于生成更全面的结果。关闭“跨标题合并”开关:不会自动合并不同标题。 说明: “层级分段”页签中有此按钮,可以自己设置开关。“自动分段”和“长度分段”页签中没有此按钮,跨标题合并使用的是系统默认参数,等于true。 表4 规则解析默认规则示例 类别 规则 描述 第一章 第一节 第一条 ^第([零〇一二三四五六七八九十百千万1-9]{1,7})章 ^第([零〇一二三四五六七八九十百千万1-9]{1,7})节 ^第([零〇一二三四五六七八九十百千万1-9]{1,7})条 以章的规则为例: 中括号内大写的阿拉伯可以匹配,例如:第一章。 支持1-9的阿拉伯数字匹配,例如: 第1章。 最大支持中间位数出现的位数有7位。例如:第一千一百三十七章。 节和条的规则类似。 表5 自定义规则解析示例 类别 规则 描述 第一章 第一节 第一条 ^第([零〇一二三四五六七八九十百千万1-9]{1,7})章 ^第([零〇一二三四五六七八九十百千万1-9]{1,7})节 ^第([零〇一二三四五六七八九十百千万1-9]{1,7})条 / 1 1.1 1.1.1 ^(\d+\.)(?=\s) ^(\d+)(\.\d+)(?!\.)(?=\s) ^(\d+)(\.\d+)(\.\d+)(?!\.)(?=\s) 可以匹配数字开头的段落。 备注: [\u4e00-\u9fa5]+ 限制中文) 例如: 1. 简介 1.1 说明 1.1.1 详细说明 一、 (一) 1、 1) ^([零〇一二三四五六七八九十百千万]+)[、] ^(([零〇一二三四五六七八九十百千万]+)) ^[\d+]、 ^[\d+]) / 图2 自定义规则解析示例 在“模型设置”页签配置好模型后,单击“下一步”。 搜索模型设置 选择Embedding模型服务、精排模型服务、搜索规划模型服务。 Embedding模型服务:基于盘古大模型技术的文本表示模型,将文本转化为用数值表示的向量形式,用于文本检索、聚类、推荐等场景。 精排模型服务:基于盘古大模型技术的文本表示模型,将文本转化为用数值表示的向量形式,用于文本检索、聚类、推荐等场景,语义搜索场景下,加入了精排模型,提升搜索的效果。 搜索规划模型服务:搜索规划模型服务提供了意图分类、多轮查询改写、复杂查询分解、时间抽取等功能,在搜索增强生成任务中,通过意图分类的结果将路由到后续不同的流程;通过改写查询词及查询分解以提高搜索的准确率。 NLP模型设置 选择NLP模型服务。基于盘古大模型的人工智能语言模型,可进行对话互动、回答问题、协助创作。 扩展长上下文: 如果打开了此参数,模型在解析过程中会扩展长上下文以生成更全面结果。 有效输入长度(K):如果打开“扩展长上下文”按钮,则需要设置有效输入长度,输入令牌的有效长度以保证最佳输出。 进入高级设置页面,设置好后,单击“确定”。 引用定位:针对回答结果定位到原文位置。 图文结合:展示原文引用关联图片。 知识库缓存:如果打开知识库缓存按钮,您的搜索效率会相对高效。使用知识库缓存需要选择以下几个参数。 缓存生成模型服务:选择一个模型服务。 缓存阈值:达到缓存阈值,就会使用缓存输入值必须在0.1到1之间。 缓存策略:达到缓存阈值,如果有多个答案,可以设置最高分或者随机。 过期策略配置:缓存过期的方式,有3中选择。 Least Recently Used:根据当前时间与最后一次访问时间的差值超过存活时间时删除。 First In First Out:根据当前时间与创建时间的差值超过存活时间时删除。 Least Frequency Used:小于缓存命中阈值且当前时间与创建时间大于存活时间时清除,大于阈值时保留 存活时间(秒):可以自己设置缓存的存活时间,或者直接设置成永久。 知识库创建好后,可以在知识库管理页面查看到新创建的知识库基本信息,包括知识库ID、知识库名称、知识库状态等信息。
  • 版本管理 您创建成功知识库的时候,系统会自动创建一个知识库初始版本,对版本的一些管理操作如下所示: 进入KooSearch控制台。 左侧导航栏选择“知识库管理”,进入“知识库管理”页面。 单击“版本管理”页签。 您创建好知识库后,系统会默认创建一个初始版本,如下图所示。 如果您需要再创建一个版本,单击操作列的“重建”按钮,依次选好参数,即可创建成功。 图3 重建版本 版本名称:版本的名称。 重建来源:选择“索引”或者“文档”。 索引:按照索引重建版本,会直接复用已经完成的向量数据库索引。 文档:按照文档重建版本。选择文档的话,要设置好解析规则是继承原有的规则还是使用最新的规则。 是否立即激活:选择是否立即激活。 描述:对于重建版本的描述。 重建好版本后,可以对版本进行以下操作。 图4 版本操作 状态为“使用中”的版本可进行如下操作: “重建”:按照步骤4重新建一个版本。 “更新”:可以单击此按钮更新版本描述。 状态为“可用”的版本除了“重建”、“更新”还可以进行如下操作: “关闭”:当版本不用时,可以关闭版本释放索引资源。 “删除”:当不再需要此版本时,可以删除版本。 “激活”:可用状态的版本可以激活,激活后此版本的状态变为“使用中”,之前“使用中”的版本状态变为“可用”。 被关闭的版本可进行如下操作: “启用”:被关闭版本如果想再次使用,可以单击此按钮启用,启用后版本状态会变成“可用”。 “删除”:当不再需要此版本时,可以删除版本。 “更新”:可以单击此按钮更新版本描述。
  • 调用已发布的KooSearch API 在业务环境中调用已发布的KooSearch API。 构造API请求,KooSearch API的请求说明请参见《API参考》。 为API请求添加认证信息。 表2 认证方式 认证方式 API请求参数配置 APP认证 表示由API网关服务负责接口请求的安全认证。推荐使用APP认证方式。关于使用APP认证的方法,具体请参考《开发指南》。 当选择“APP认证”时,需要配置“APP凭据”。 “APP凭据”:使用APP认证的API,需要在API网关中创建一个凭据,以生成凭据ID和密钥对(Key、Secret)。将创建的凭据绑定API后,才可以使用APP认证调用API。客户端(API调用者)在调用API过程中,把密钥对替换SDK中的密钥对,API网关服务根据密钥对进行身份核对,完成鉴权。具体创建凭据的步骤,请参考创建凭据 。 华为 IAM 认证 表示借助IAM服务进行安全认证。 说明: 选择“华为IAM认证”时,任何API网关租户均可以访问此API,可能存在恶意刷流量,导致过量计费的风险。
  • 场景描述 KooSearch服务开通成功后,会自动创建KooSearch API。在KooSearch服务详情页的API管理页签,可以看到 知识管理 和文档解析两类API。 知识管理:该类API主要用于知识库管理,例如上传文档、刷新文档等。 文档解析:该类API主要用于对文档数据进行处理,例如切分文档内容。 将KooSearch API发布到不同环境后,支持在环境中调用API使用KooSearch服务。操作流程如下: 在APIG服务配置API网关:配置API网关。 在 CSS 服务发布KooSearch API:发布KooSearch API。 在业务环境中调用已发布的KooSearch API:调用已发布的KooSearch API。 当已发布的KooSearch API需要修改安全认证方式时,可以编辑API。 当已发布的KooSearch API不希望被调用时,可以下线API。
  • 批量导入FAQ 提前在本地准备好待导入的FAQ文件。 主要支持xlsx,xls,docx,doc文件类型格式,文件内容请参考Excel样例文件或Word样例文件。Excel单个文件最大为10MB,单个文件最大支持10000条数据,文件中不允许空行,空行后的数据将被忽略。Word单个文件最大为128M,Word中支持图文格式的FAQ。 在KooSearch控制台,左侧导航栏选择“知识库管理”,进入“知识库管理”页面。 在知识库管理页面,选择已创建的知识库,单击操作列的“文档管理”。 进入“文档管理”页面。 单击“FAQ批量导入”,切换至“FAQ批量导入”页签。 单击“上传”,在上传对话框中单击“选择文档”,本地选择已提前准备好的FAQ文件。 图5 FAQ批量导入 在对话框中单击“确认”。 文件上传后,可在“FAQ批量导入”页签查看已上传的文件,当“导入状态”为“正常”,说明文件已导入成功。 管理FAQ文件。 单击操作列的“下载”,可下载文件至本地。 单击操作列的“删除”,可删除已上传的文件。
  • 上传结构化数据 提前在本地准备好待上传的结构化数据文件。 支持UTF-8编码的JSON文件格式,单个文件最大2M。模板如下所示: [ { "cmd": "ADD", "id": "100001", "content": "content for the first data" }, { "cmd": "ADD", "id": "100002", "title": "title for the second data", "content": "content for the second data", "url": "https://abc.abc.com", "docTime":"2015/01/01 12:10:30", "category":"category1", "tags":["tag1","tag2","tag3"] }, { "cmd": "UPDATE", "id": "100002", "content":"The content for the second data is updated", "category":"newCategory" }, { "cmd": "DELETE", "id": "100002" } ] 在KooSearch控制台,左侧导航栏选择“知识库管理”,进入“知识库管理”页面。 在知识库管理页面,选择已创建的知识库,单击操作列的“文档管理”,进入“文档管理”页面。 单击“结构化数据”,切换至“结构化数据”页签。 单击“上传”,在上传对话框中单击“选择文档”,本地选择已提前准备好的结构化数据文件。 单击“确认”。 文件上传后,可在结构化数据页签查看已上传的文件,当“导入状态”为“正常”,说明文件已上传成功。
  • 创建FAQ 在KooSearch控制台,左侧导航栏选择“知识库管理”,进入“知识库管理”页面。 在知识库管理页面,选择已创建的知识库,单击操作列的“文档管理”。 进入“文档管理”页面。 单击“FAQ管理”,切换至“FAQ管理”页签。 单击“创建”,在“新建问答”对话框中输入“标准问题”和“答案”,单击“添加相似问题”,可输入多个相似问题。 在对话框中单击“确认”。 FAQ创建后,可在FAQ管理页签查看已创建的问答。 管理FAQ。 单击操作列的“编辑”,可重新编辑FAQ的“标准问题”和“答案”。 单击操作列的“删除”,可删除已创建的FAQ。
  • 场景描述 KooSearch知识库支持上传以下几种类型的知识。 表1 上传数据 上传方式 描述 上传文档 支持上传文档类型的知识,支持格式为 .doc, .docx, .pdf, .pptx, .ppt, .xlsx, .xls, .csv, .wps, .png, .jpg, .jpeg, .bmp, .gif, .tiff, .tif, .webp, .pcx, .ico, .psd, .dps, .et, .txt, .ofd 的多个文档,单个文档不能超过128MB(超过60MB建议通过API上传)。当前版本中图片上传、文档内单张图片上传最大不超过10MB。 创建FAQ 支持创建问答形式的知识。 批量导入FAQ 支持批量导入问答形式的知识,主要支持xlsx,xls,docx,doc文件类型格式。 上传结构化数据 支持上传结构化知识。支持UTF-8编码的JSON文件格式,单个文件最大2M。
  • 上传文档 提前在本地准备好待上传的文档。 支持格式为 .doc, .docx, .pdf, .pptx, .ppt, .xlsx, .xls, .csv, .wps, .png, .jpg, .jpeg, .bmp, .gif, .tiff, .tif, .webp, .pcx, .ico, .psd, .dps, .et, .txt, .ofd 的多个文档,单个文档不能超过128MB(超过60MB建议通过API上传),当前版本中图片上传、文档内单张图片上传最大不超过10MB。 在KooSearch控制台,左侧导航栏选择“知识库管理”,进入“知识库管理”页面。 在知识库管理页面,选择已创建的知识库,单击操作列的“文档管理”,进入“文档管理”页面。 图1 进入文档管理页面 默认进入“文档管理”页签,单击“上传”。 在上传对话框中单击“选择文档”,本地选择已提前准备好的文档。重复的文档不允许上传。 图2 上传文档 单击“确认”。文档上传后,可在文档管理页签查看已上传的文档,当“文档状态”为“正常”,说明文档已上传成功。 文档上传成功后,可以单击文档名称,查看切片效果。 图3 单击文档名称 图4 切片效果 管理文档数据。 单击操作列的“下载”,可下载文档至本地。 单击操作列的“删除”,可删除已上传的文档。 单击操作列的“QA生成”,可将上传的文档生成问答模式的Excel文档,生成任务在“任务管理”页签可以查看。 单击操作列的“重试”,可对已上传的文档重新进行切片。
  • Flexus 企业搜索 服务使用流程 华为云企业搜索KooSearch是基于华为云的 云搜索服务 搭建的一站式智能搜索解决方案,帮助企业聚焦业务场景和应用开发,场景服务化、技术简单化、低门槛化,满足开发者基于业务场景的二次开发。在RAG(Retrieval-Augmented Generation)及搜索场景提供效果和性能突出的组件化服务,架构理想、灵活编排的机制,帮助企业客户快速构建RAG以及搜索服务。 仅“西南-贵阳一”区域支持开通和使用KooSearch服务。 KooSearch服务使用流程,如下图所示: 图1 koosearch使用流程 表1 使用流程 步骤 操作 说明 1 开通服务 首先需要开通服务,开通服务时会选择版本规格、配置一系列参数来创建一个实例,后续可以用此实例实现搜索问答,具体请看开通Flexus企业搜索服务。 2 在控制台使用KooSearch服务实现搜索文档 开通服务后,您可以在KooSearch控制台实现搜索问答,具体操作如下: 当KooSearch服务管理员需要自定义模型服务时,可以创建和管理KooSearch模型服务(可选),否则跳过该步骤。 创建KooSearch知识库。 将本地文件上传至KooSearch知识库。 使用KooSearch服务进行问答和搜索。 体验KooSearch问答。 体验KooSearch搜索。 管理知识库。 使用KooSearch的API实现搜索文档 您也可以使用调用API的方式实现搜索问答,KooSearch服务提供的API支持发布到不同的环境,发布成功后支持被调用,具体操作如下: 配置API网关。 发布KooSearch API。 调用已发布的KooSearch API。 编辑API。 下线API。 3 管理KooSearch服务 在服务的基本信息页面,可以获取服务的内网访问文档解析地址、内网访问知识管理地址、计费模式等信息。除此之外,还能进行管理服务、API管理和日志管理。具体请看管理KooSearch知识库。 4 查看KooSearch服务日志 为了方便用户使用日志定位问题,KooSearch服务提供了日志查询功能。用户可以通过日志查询进行问题分析定位。具体请看Flexus企业搜索服务日志管理。
  • 步骤3:配置网络 登录NAT网关管理控制台。 在公网NAT网关列表页面,单击“购买公网NAT网关”,进入购买公网NAT网关页面。 在购买公网NAT网关页面,配置NAT网关。 关键参数请参见表2配置,其他参数可以保持默认值或基于业务场景参考购买公网NAT网关完成配置。 表2 购买公网NAT网关 参数 说明 计费模型 因为KooSearch是离线服务,建议选择“按需计费”。 区域 和KooSearch保持一个区域,选择“西南-贵阳一”。 虚拟私有云 和KooSearch选择同一个VPC。 子网 和KooSearch选择同一个子网。 单击“立即购买”,确认产品规格无误后,单击“提交”,开始创建公网NAT网关。当状态为“运行中”时,表示公网NAT网关创建成功。 当公网NAT网关创建成功后,在公网NAT网关列表页面,单击操作列的“设置规则”,在弹窗中单击“添加规则”进入网关详情页的“SNAT规则”页面。 在“SNAT规则”页面,单击“添加SNAT规则”,在弹窗中配置公网NAT网关的SNAT规则。 表3 添加SNAT规则 参数 说明 使用场景 选择“虚拟私有云”。 网段 选择“使用已有”,选择和KooSearch同一个VPC。 公网IP类型 选择“弹性公网IP”,勾选满足要求的IP。 如果没有可选的弹性公网IP,可以单击“查看弹性公网IP”跳转到弹性公网IP列表页,申请弹性公网IP。 建议弹性公网IP的“计费模式”为“按需计费”,“公网带宽”为“按流量计费”,“带宽大小”为“20”Mbit/s。 单击“确定”完成SNAT规则的添加。
  • 步骤1:在MaaS部署模型服务 在MaaS服务中完成模型服务的部署,并获取模型服务的信息用于KooSearch对接MaaS时使用。 登录ModelArts管理控制台。 在左侧导航栏中,选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。 在ModelArts Studio大模型即服务平台选择合适的模型,创建为“我的模型”。操作指导请参见在MaaS中创建模型。 将创建好的模型部署为模型服务,具体操作请参见使用MaaS部署模型服务。 选择使用AppCode认证方式调用部署好的模型服务,具体操作请参见调用MaaS部署的模型服务。 获取并记录模型服务的“调用模型名称”、“API接口公网地址”和“AppCode”,当KooSearch对接MaaS时会使用到这些参数。
  • 步骤1:开通OCR 开通OCR服务的智能文档解析功能。 登录 文字识别 OCR管理控制台。 在“总览”页面的使用说明模块选择“智能文档解析”。 单击操作列的“开通管理”,弹出开通管理页面,确认是否已经为操作者开通了智能文档解析功能。 是,则进行下一步。 否,则单击操作列的“开通服务”为操作者开通智能文档解析功能。 如图1所示,表示所有人都已开通智能文档解析功能。 图1 开通智能文档解析 详细操作指导请参见文字识别OCR。
  • 应用场景 Flexus企业搜索服务(后续简称为KooSearch),Koosearch结合OCR服务文档识别能力,通过NET网关打通网络,使Koosearch支持智能文档解析能力,对PDF/Word等格式的文档内容进行版式分析,智能识别文档中的各种版式类型,如表格、图片、公式、标题等,以及识别单栏、双栏版面结构及段落顺序,对用户上传的文档进行智能解析。本文介绍Flexus企业搜索服务如何配置OCR增强实现文档智能解析功能。