智能开发助手 CODEARTSSNAP-RAG知识库资产管理:创建知识库资产

时间:2024-11-11 14:25:52

创建知识库资产

  1. 单击已创建好的知识库卡片,可进入当前知识库新建资产页面。
  2. 单击页面左上角“新建资产”,弹出图1
    图1 新建资产对话框
  3. 填写资产名称,上传相应的文档。当前上传文件只支持本地文件和代码文件两种文件类型。
    • 本地文件:支持TXT、DOCX格式文件,单个文件最大支持20MB。
    • 代码文件:仅支持JAVA、PYTHON、C、C++文件的ZIP格式,单个文件最大支持20MB,单个资产配额50MB。
  4. 单击下一步,进入入库配置页面。选择一个Embedding模型,对上传的文档进行向量化,当前提供四个模型可供选择。
    图2 入库配置页面
    • 中文文本嵌入模型m3e-base:该模型是适用于中英文文本的通用型768维度的嵌入模型。
    • 中文版文本表示模型bge-large-zh-v1.5:该模型适用于检索、分类、聚类或语义匹配等任务,目前仅支持中文文本。
    • 向量计算模型paraphrase-multilingual-MiniLM-L12-v2:该模型适用于中英文文本,在文本相似度计算中表现优异,模型维度364。
    • 华为自研代码专用模型VESO-v1.2:该模型在代码数据向量化、代码搜索任务中表现突出。
  5. 在入库配置页面,按需配置“高级配置”中的“分段预计长度”
    • 切分器:不同的切分器的切片方式和结果不同,在不同的语言场景下可以选择不同的切分器,当前只支持中文切分器。
    • 分段预计长度:分片长度的取值范围为50-1000,默认值为300。
  6. 单击确定,知识库资产创建完毕,如图3所示,为创建好的知识库资产列表。
    图3 知识库资产列表
support.huaweicloud.com/usermanual-codeartssnap/codeartssnap_05_0018.html