应用平台 APPSTAGE-创建知识数据集:创建索引配置
创建索引配置
- 知识数据集创建完成后,单击“下一步”,进入索引配置页面。
- 在索引配置页面,参照表2进行相关参数的配置。
表2 索引配置参数说明 参数
说明
索引配置名称
自定义索引配置名称。支持中英文、数字、下划线(_),长度2-50个字符,以中英文、数字开头。
索引描述
索引配置的描述信息。
向量化模型
选择向量化模型,向量化模型是将文本数据转换为数值向量的过程。常用于将文本转换为机器可以处理的形式,以便进行各种任务,如文本分类、情感分析、 机器翻译 等。
当前向量化模型支持的最大长度为512 token,对应的中文约为512个字,英文与符号约900个字符,请注意分片长度。
长文本截断策略
- 截断模式:如果待向量化分片字段token长度超过向量化模型限制的token总数,则进行截断,取前top k个token。
- 智能模式:如果待向量化分片字段token超过向量化模型限制的token总数,首先利用对话大模型对超长分片进行重写,如果仍然超长则进入截断模式。
- 默认模式:如果待向量化分片字段token长度超过了向量化模型限制的token总数,则创建知识库失败。
切片配置
根据需要勾选如下参数:
- 向量化检索字段:对相应的切片片段进行向量化。
- 文本过滤字段:设置相应的切片片段为过滤字段。
- 检索返回字段:检索返回相应的切片片段。
- 单击“创建数据集和索引配置”,创建的数据集和索引配置显示在“知识数据集”页面的数据集列表中。
- 如何创建用户并授权使用应用管理与运维平台_应用管理与运维平台_创建用户_用户授权
- 如何创建用户并授权使用应用运维管理服务_AOM_用户权限_创建用户_权限
- GaussDB索引_GaussDB数据库索引_高斯数据库索引_华为云
- 如何创建网站
- ModelArts模型训练_创建训练作业_如何创建训练作业
- 如何使用应用管理与运维平台环境管理功能_环境管理_创建环境_纳管资源
- 华为云IEF_华为云智能边缘平台_智能边缘平台IEF创建容器应用
- ModelArts推理部署_创建AI应用_自定义镜像规范-华为云
- 零代码开发如何创建应用_零代码开发平台_华为云Astro-华为云
- 如何使用模板创建函数_模板创建函数_函数工作流 FunctionGraph-华为云