-
停用词
停用词是很常见的词,几乎出现在每一个文档中,并且没有区分值。因此,在全文搜索的语境下可忽视它们。停用词处理逻辑和词典类型相关。例如,Ispell词典会先对标记进行规范化,然后再查看停用词表,而Snowball词典会最先检查输入标记是否为停用词。 例如,每个英文文本包含像a和the的单词,因此没必要将它
来自:帮助中心 -
解析文档
n并给每个token指定一个类型。对于每个token,有一系列词典可供查询。词典系列因token类型的不同而不同。识别token的第一本词典将发出一个或多个标准词素来表示token。例如: rats变成rat因为词典认为词rats是rat的复数形式。 有些词被作为停用词(请参考停
来自:帮助中心 -
分词器
文本搜索解析器将文档分解为token,并且分类每个token(例如:词和数字)。 文本搜索词典将token转换成规范格式并且丢弃停用词。 文本搜索模板提供潜在的词典功能:一个词典指定一个模板,并且为模板设置参数。 文本搜索分词器选择一个解析器,并且使用一系列词典规范化语法分析器产生的token。 父主题: 介绍
来自:帮助中心 -
配置示例
CONFIGURATION 创建Synonym词典。 假设同义词词典定义文件pg_dict.syn内容如下: 1 2 3 postgres pg pgsql pg postgresql pg 执行如下语句创建Synonym词典: 1 2 3 4 5 openGauss=#
来自:帮助中心 -
配置示例
-
全文检索概述
-
约束与限制
-
文本搜索配置示例
-
停用词
-
停用词
-
停用词
-
解析文档
-
解析文档
-
解析文档
-
停用词
-
解析文档
-
分词器测试
-
相似文档排序召回检索函数和操作符
-
测试和调试文本搜索
-
分词器
-
分词器