检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
分词器 全文检索功能还可以做更多事情:忽略索引某个词(停用词),处理同义词和使用复杂解析,例如,不仅基于空格的解析。这些功能通过文本搜索分词器控制。GaussDB(DWS)支持多语言的预定义的分词器,并且可以创建分词器(gsql的\dF命令显示了所有可用分词器)。 在安装期间选择
限制约束 GaussDB(DWS)的全文检索功能当前限制约束是: 每个分词长度必须小于2K字节。 tsvector结构(分词+位置)的长度必须小于1兆字节。 tsvector的位置值必须大于0,小于等于16,383。 每个分词在文档中位置数必须小于256,若超过将舍弃后面的位置信息。
文本检索操作符 @@ 描述:tsvector类型的词汇与tsquery类型的词汇是否匹配 示例: 1 2 3 4 5 SELECT to_tsvector('fat cats ate rats') @@ to_tsquery('cat & rat') AS RESULT; result
文本检索操作符 @@ 描述:tsvector类型的词汇与tsquery类型的词汇是否匹配 示例: 1 2 3 4 5 SELECT to_tsvector('fat cats ate rats') @@ to_tsquery('cat & rat') AS RESULT; result
介绍 全文检索概述 文档概念 基本文本匹配 分词器 限制约束 父主题: 全文检索
词典 词典概述 停用词 Simple词典 Synonym词典 Thesaurus词典 Ispell词典 Snowball词典 父主题: 全文检索
Vacuum回收GaussDB(DWS)空间 智能运维概览 管理运维计划 查看运维任务 父主题: GaussDB(DWS)集群运维
组,即表示该标记会被丢弃。否则,输入标记的小写形式作为规范化后的lexeme返回。此外,Simple词典可通过设置参数Accept为false(默认值true),将非停用词报告为未识别,传递给后继词典继续处理。 注意事项 大多数词典的功能依赖于词典定义文件,词典定义文件名仅支持小写字母、数字、下划线组合。
min用户组的用户)通过创建自定义策略,可以自由搭配需要授予的权限集。通过给用户组授予策略,用户组中的用户就能获得策略中定义的权限。IAM通过策略定义的权限内容实现精细的权限管理。 发布区域:全部 细粒度权限策略 数据库权限 通过数据库权限划分,可以有效防止数据库中的对象被任意地
表和索引 搜索表 创建索引 索引使用约束 父主题: 全文检索
必须由布尔运算符& (AND),| (OR)和! (NOT)分割的单个token组成。这些运算符可以用圆括弧分组。换句话说,to_tsquery输入必须遵循tsquery输入的通用规则,具体请参见文本搜索类型。不同的是基本tsquery以token表面值作为输入,而to_tsqu
分词器 全文检索功能还可以做更多事情:忽略索引某个词(停用词),处理同义词和使用复杂解析,例如,不仅基于空格的解析。这些功能通过文本搜索分词器控制。GaussDB(DWS)支持多语言的预定义的分词器,并且可以创建分词器(gsql的\dF命令显示了所有可用分词器)。 在安装期间选择
注意:对于解析器来说,一个“字母”的概念是由数据库的语言区域设置,即lc_ctype设置决定的。只包含基本ASCII字母的词被报告为一个单独的token类型,因为这类词有时需要被区分出来。大多数欧洲语言中,对token类型word和asciiword的处理方法是类似的。 email不支持某些由RFC
Snowball词典模板支持词干分析词典,基于Martin Porter的Snowball项目,内置有许多语言的词干分析算法。GaussDB(DWS)中预定义有多种语言的Snowball词典,可通过系统表PG_TS_DICT查看预定义的词干分析词典以及支持的语言词干分析算法。 无论是否可以简化,Snowb
分词器 全文检索功能还可以做更多事情:忽略索引某个词(停用词),处理同义词和使用复杂解析,例如,不仅基于空格的解析。这些功能通过文本搜索分词器控制。GaussDB(DWS)支持多语言的预定义的分词器,并且可以创建分词器(gsql的\dF命令显示了所有可用分词器)。 在安装期间选择
控制文本搜索 解析文档 解析查询 排序查询结果 高亮搜索结果 父主题: 全文检索
限制约束 GaussDB(DWS)的全文检索功能当前限制约束是: 每个分词长度必须小于2K字节。 tsvector结构(分词+位置)的长度必须小于1兆字节。 tsvector的位置值必须大于0,小于等于16,383。 每个分词在文档中位置数必须小于256,若超过将舍弃后面的位置信息。
文档是全文搜索系统的搜索单元,例如:杂志上的一篇文章或电子邮件消息。文本搜索引擎必须能够解析文档,而且可以存储父文档的关联词素(关键词)。后续,这些关联词素用来搜索包含查询词的文档。 在GaussDB(DWS)中,文档通常是一个数据库表中一行的文本字段,或者这些字段的可能组合(级联)
停用词是很常见的词,几乎出现在每一个文档中,并且没有区分值。因此,在全文搜索的语境下可忽视它们。停用词处理逻辑和词典类型相关。例如,Ispell词典会先对标记进行规范化,然后再查看停用词表,而Snowball词典会最先检查输入标记是否为停用词。 例如,每个英文文本包含像a和the的单词,
(1 row) 这样的词素将匹配tsquery中指定字符串和权重的项。 plainto_tsquery plainto_tsquery将未格式化的文本querytext变换为tsquery。类似于to_tsvector,文本被解析并且标准化,然后在存在的词之间插入&(AND)布尔算子。