词典-华为云

数据仓库服务 GAUSSDB(DWS)-词典概述

词典概述词典用于定义停用词（stop words），即全文检索时不搜索哪些词。词典还可以用于对同一词的不同形式进行规范化，这样同一个词的不同派生形式都可以进行匹配。规范化后的词称为词位（lexeme）。除了提高检索质量外，词的规范化和删除停用词可以减少文档tsvector格式的大小，从而提高性能。词的规范化和删除停用词并不总是具有语言学意义，用户可以根据应用环境在词典定义文件中自定义规范化和删除规则。一个词典是一个程序，接收标记（token）作为输入，并返回：如果token在词典中已知，返回对应lexeme数组（注意，一个标记可能对应多个lexeme）。一个lexeme。一个新token会代替输入token被传递给后继词典（当前词典可被称为过滤词典）。如果token在词典中已知，但它是一个停用词，返回空数组。如果词典不能识别输入的token，返回NULL。 GaussDB (DWS)提供了多种语言的预定义词典，同时提供了五种预定义的词典模板，分别是Simple，Synonym，Thesaurus，Ispell，和Snowball，可用于创建自定义参数的新词典。在使用全文检索时，建议用户：可以在文本搜索配置中定义一个解析器，以及一组用于处理该解析器的输出标记词典。对于解析器返回的每个标记类型，可以在配置中指定不同的词典列表进行处理。当解析器输出一种类型的标记后，在对应列表的每个词典中会查阅该标记，直到某个词典识别它。如果它被识别为一个停用词，或者没有任何词典识别，该token将被丢弃，即不被索引或检索到。通常情况下，第一个返回非空结果的词典决定了最终结果，后继词典将不会继续处理。但是一个过滤类型的词典可以依据规则替换输入token，然后将替换后的token传递给后继词典进行处理。配置词典列表的一般规则是，第一个位置放置一个应用范围最小的、最具体化定义的词典，其次是更一般化定义的词典，最后是一个普适定义的词典，比如Snowball词干词典或Simple词典。在下面例子中，对于一个针对天文学的文本搜索配置astro_en，可以定义标记类型asciiword（ASCII词）对应的词典列表为：天文术语的Synonym同义词词典， Ispell英语词典和Snowball英语词干词典。 1 2 ALTER TEXT SEARCH CONFIGURATION astro_en ADD MAPPING FOR asciiword WITH astro_syn, english_ispell, english_stem; 过滤类型的词典可以放置在词典列表中除去末尾的任何地方，放置在末尾时是无效的。使用这些词典对标记进行部分规范化，可以有效简化后继词典的处理。父主题：词典

数据仓库服务 GAUSSDB(DWS) 词典

数据仓库服务 GAUSSDB(DWS)-词典概述

词典概述词典用于定义停用词（stop words），即全文检索时不搜索哪些词。词典还可以用于对同一词的不同形式进行规范化，这样同一个词的不同派生形式都可以进行匹配。规范化后的词称为词位（lexeme）。除了提高检索质量外，词的规范化和删除停用词可以减少文档tsvector格式的大小，从而提高性能。词的规范化和删除停用词并不总是具有语言学意义，用户可以根据应用环境在词典定义文件中自定义规范化和删除规则。一个词典是一个程序，接收标记（token）作为输入，并返回：如果token在词典中已知，返回对应lexeme数组（注意，一个标记可能对应多个lexeme）。一个lexeme。一个新token会代替输入token被传递给后继词典（当前词典可被称为过滤词典）。如果token在词典中已知，但它是一个停用词，返回空数组。如果词典不能识别输入的token，返回NULL。 GaussDB(DWS)提供了多种语言的预定义词典，同时提供了五种预定义的词典模板，分别是Simple，Synonym，Thesaurus，Ispell，和Snowball，可用于创建自定义参数的新词典。在使用全文检索时，建议用户：可以在文本搜索配置中定义一个解析器，以及一组用于处理该解析器的输出标记词典。对于解析器返回的每个标记类型，可以在配置中指定不同的词典列表进行处理。当解析器输出一种类型的标记后，在对应列表的每个词典中会查阅该标记，直到某个词典识别它。如果它被识别为一个停用词，或者没有任何词典识别，该token将被丢弃，即不被索引或检索到。通常情况下，第一个返回非空结果的词典决定了最终结果，后继词典将不会继续处理。但是一个过滤类型的词典可以依据规则替换输入token，然后将替换后的token传递给后继词典进行处理。配置词典列表的一般规则是，第一个位置放置一个应用范围最小的、最具体化定义的词典，其次是更一般化定义的词典，最后是一个普适定义的词典，比如Snowball词干词典或Simple词典。在下面例子中，对于一个针对天文学的文本搜索配置astro_en，可以定义标记类型asciiword（ASCII词）对应的词典列表为：天文术语的Synonym同义词词典， Ispell英语词典和Snowball英语词干词典。 1 2 ALTER TEXT SEARCH CONFIGURATION astro_en ADD MAPPING FOR asciiword WITH astro_syn, english_ispell, english_stem; 过滤类型的词典可以放置在词典列表中除去末尾的任何地方，放置在末尾时是无效的。使用这些词典对标记进行部分规范化，可以有效简化后继词典的处理。父主题：词典

数据仓库服务 GAUSSDB(DWS) 词典

数据仓库服务 GAUSSDB(DWS)-词典概述

词典概述词典用于定义停用词（stop words），即全文检索时不搜索哪些词。词典还可以用于对同一词的不同形式进行规范化，这样同一个词的不同派生形式都可以进行匹配。规范化后的词称为词位（lexeme）。除了提高检索质量外，词的规范化和删除停用词可以减少文档tsvector格式的大小，从而提高性能。词的规范化和删除停用词并不总是具有语言学意义，用户可以根据应用环境在词典定义文件中自定义规范化和删除规则。一个词典是一个程序，接收标记（token）作为输入，并返回：如果token在词典中已知，返回对应lexeme数组（注意，一个标记可能对应多个lexeme）。一个lexeme。一个新token会代替输入token被传递给后继词典（当前词典可被称为过滤词典）。如果token在词典中已知，但它是一个停用词，返回空数组。如果词典不能识别输入的token，返回NULL。 GaussDB(DWS)提供了多种语言的预定义词典，同时提供了五种预定义的词典模板，分别是Simple，Synonym，Thesaurus，Ispell，和Snowball，可用于创建自定义参数的新词典。在使用全文检索时，建议用户：可以在文本搜索配置中定义一个解析器，以及一组用于处理该解析器的输出标记词典。对于解析器返回的每个标记类型，可以在配置中指定不同的词典列表进行处理。当解析器输出一种类型的标记后，在对应列表的每个词典中会查阅该标记，直到某个词典识别它。如果它被识别为一个停用词，或者没有任何词典识别，该token将被丢弃，即不被索引或检索到。通常情况下，第一个返回非空结果的词典决定了最终结果，后继词典将不会继续处理。但是一个过滤类型的词典可以依据规则替换输入token，然后将替换后的token传递给后继词典进行处理。配置词典列表的一般规则是，第一个位置放置一个应用范围最小的、最具体化定义的词典，其次是更一般化定义的词典，最后是一个普适定义的词典，比如Snowball词干词典或Simple词典。在下面例子中，对于一个针对天文学的文本搜索配置astro_en，可以定义标记类型asciiword（ASCII词）对应的词典列表为：天文术语的Synonym同义词词典， Ispell英语词典和Snowball英语词干词典。 1 2 ALTER TEXT SEARCH CONFIGURATION astro_en ADD MAPPING FOR asciiword WITH astro_syn, english_ispell, english_stem; 过滤类型的词典可以放置在词典列表中除去末尾的任何地方，放置在末尾时是无效的。使用这些词典对标记进行部分规范化，可以有效简化后继词典的处理。父主题：词典

数据仓库服务 GAUSSDB(DWS) 词典

云数据库 GAUSSDB-词典概述

词典概述词典用于定义停用词（stop words），即全文检索时不搜索哪些词。词典还可以用于对同一词的不同形式进行规范化，这样同一个词的不同派生形式都可以进行匹配。规范化后的词称为词位（lexeme）。除了提高检索质量外，词的规范化和删除停用词可以减少文档tsvector格式的大小，从而提高性能。词的规范化和删除停用词并不总是具有语言学意义，用户可以根据应用环境在词典定义文件中自定义规范化和删除规则。一个词典是一个程序，接收标记（token）作为输入，并返回：如果token在词典中已知，返回对应lexeme数组（注意，一个标记可能对应多个lexeme）。一个lexeme。一个新token会代替输入token被传递给后继词典（当前词典可被称为过滤词典）。如果token在词典中已知，但它是一个停用词，返回空数组。如果词典不能识别输入的token，返回NULL。 GaussDB提供了多种语言的预定义字典，同时提供了五种预定义的词典模板，分别是Simple，Synonym，Thesaurus，Ispell，和Snowball，可用于创建自定义参数的新词典。在使用全文检索时，建议用户：可以在文本搜索配置中定义一个解析器，以及一组用于处理该解析器的输出标记词典。对于解析器返回的每个标记类型，可以在配置中指定不同的词典列表进行处理。当解析器输出一种类型的标记后，在对应列表的每个字典中会查阅该标记，直到某个词典识别它。如果它被识别为一个停用词，或者没有任何词典识别，该token将被丢弃，即不被索引或检索到。通常情况下，第一个返回非空结果的词典决定了最终结果，后继词典将不会继续处理。但是一个过滤类型的词典可以依据规则替换输入token，然后将替换后的token传递给后继词典进行处理。配置字典列表的一般规则是，第一个位置放置一个应用范围最小的、最具体化定义的词典，其次是更一般化定义的词典，最后是一个普适定义的词典，比如Snowball词干词典或Simple词典。在下面例子中，对于一个针对天文学的文本搜索配置astro_en，可以定义标记类型asciiword（ASCII词）对应的词典列表为：天文术语的Synonym同义词词典， Ispell英语词典和Snowball 英语词干词典。 1 2 openGauss=# ALTER TEXT SEARCH CONFIGURATION astro_en ADD MAPPING FOR asciiword WITH astro_syn, english_ispell, english_stem; 过滤类型的词典可以放置在词典列表中除去末尾的任何地方，放置在末尾时是无效的。使用这些词典对标记进行部分规范化，可以有效简化后继词典的处理。父主题：词典

云数据库 GAUSSDB 词典

云数据库 GAUSSDB-词典概述

词典概述词典用于定义停用词（stop words），即全文检索时不搜索哪些词。词典还可以用于对同一词的不同形式进行规范化，这样同一个词的不同派生形式都可以进行匹配。规范化后的词称为词位（lexeme）。除了提高检索质量外，词的规范化和删除停用词可以减少文档tsvector格式的大小，从而提高性能。词的规范化和删除停用词并不总是具有语言学意义，用户可以根据应用环境在词典定义文件中自定义规范化和删除规则。一个词典是一个程序，接收标记（token）作为输入，并返回：如果token在词典中已知，返回对应lexeme数组（注意，一个标记可能对应多个lexeme）。一个lexeme。（该lexeme为设置了TSL_FILTER标志的lexeme，TSL_FILTER标志为过滤词典内部自动设置，用户不感知。）一个新token会代替输入token被传递给后继词典（当前词典可被称为过滤词典）。如果token在词典中已知，但它是一个停用词，返回空数组。如果词典不能识别输入的token，返回NULL。 GaussDB提供了多种语言的预定义字典，同时提供了五种预定义的词典模板，分别是Simple，Synonym，Thesaurus，Ispell，和Snowball，可用于创建自定义参数的新词典。在使用全文检索时，建议用户：可以在文本搜索配置中定义一个解析器，以及一组用于处理该解析器的输出标记词典。对于解析器返回的每个标记类型，可以在配置中指定不同的词典列表进行处理。当解析器输出一种类型的标记后，在对应列表的每个字典中会查阅该标记，直到某个词典识别它。如果它被识别为一个停用词，或者没有任何词典识别，该token将被丢弃，即不被索引或检索到。通常情况下，第一个返回非空结果的词典决定了最终结果，后继词典将不会继续处理。但是一个过滤类型的词典可以依据规则替换输入token，然后将替换后的token传递给后继词典进行处理。配置字典列表的一般规则是，第一个位置放置一个应用范围最小的、最具体化定义的词典，其次是更一般化定义的词典，最后是一个普适定义的词典，比如Snowball词干词典或Simple词典。在下面例子中，对于一个针对天文学的文本搜索配置astro_en，可以定义标记类型asciiword（ASCII词）对应的词典列表为：天文术语的Synonym同义词词典， Ispell英语词典和Snowball 英语词干词典。 1 2 openGauss=# ALTER TEXT SEARCH CONFIGURATION astro_en ADD MAPPING FOR asciiword WITH astro_syn, english_ispell, english_stem; 过滤类型的词典可以放置在词典列表中除去末尾的任何地方，放置在末尾时是无效的。使用这些词典对标记进行部分规范化，可以有效简化后继词典的处理。父主题：词典

云数据库 GAUSSDB 词典

数据仓库服务 GAUSSDB(DWS)-词典概述

词典概述词典用于定义停用词（stop words），即全文检索时不搜索哪些词。词典还可以用于对同一词的不同形式进行规范化，这样同一个词的不同派生形式都可以进行匹配。规范化后的词称为词位（lexeme）。除了提高检索质量外，词的规范化和删除停用词可以减少文档tsvector格式的大小，从而提高性能。词的规范化和删除停用词并不总是具有语言学意义，用户可以根据应用环境在词典定义文件中自定义规范化和删除规则。一个词典是一个程序，接收标记（token）作为输入，并返回：如果token在词典中已知，返回对应lexeme数组（注意，一个标记可能对应多个lexeme）。一个lexeme。一个新token会代替输入token被传递给后继词典（当前词典可被称为过滤词典）。如果token在词典中已知，但它是一个停用词，返回空数组。如果词典不能识别输入的token，返回NULL。 GaussDB(DWS)提供了多种语言的预定义词典，同时提供了五种预定义的词典模板，分别是Simple，Synonym，Thesaurus，Ispell，和Snowball，可用于创建自定义参数的新词典。在使用全文检索时，建议用户：可以在文本搜索配置中定义一个解析器，以及一组用于处理该解析器的输出标记词典。对于解析器返回的每个标记类型，可以在配置中指定不同的词典列表进行处理。当解析器输出一种类型的标记后，在对应列表的每个词典中会查阅该标记，直到某个词典识别它。如果它被识别为一个停用词，或者没有任何词典识别，该token将被丢弃，即不被索引或检索到。通常情况下，第一个返回非空结果的词典决定了最终结果，后继词典将不会继续处理。但是一个过滤类型的词典可以依据规则替换输入token，然后将替换后的token传递给后继词典进行处理。配置词典列表的一般规则是，第一个位置放置一个应用范围最小的、最具体化定义的词典，其次是更一般化定义的词典，最后是一个普适定义的词典，比如Snowball词干词典或Simple词典。在下面例子中，对于一个针对天文学的文本搜索配置astro_en，可以定义标记类型asciiword（ASCII词）对应的词典列表为：天文术语的Synonym同义词词典， Ispell英语词典和Snowball英语词干词典。 1 2 ALTER TEXT SEARCH CONFIGURATION astro_en ADD MAPPING FOR asciiword WITH astro_syn, english_ispell, english_stem; 过滤类型的词典可以放置在词典列表中除去末尾的任何地方，放置在末尾时是无效的。使用这些词典对标记进行部分规范化，可以有效简化后继词典的处理。父主题：词典

数据仓库服务 GAUSSDB(DWS) 词典

数据仓库服务 GAUSSDB(DWS)-Thesaurus词典:操作步骤

操作步骤创建一个名为thesaurus_astro的TZ词典。以一个简单的天文学词典thesaurus_astro为例，其中定义了两组天文短语及其同义词如下： 1 2 supernovae stars : sn crab nebulae : crab 执行如下语句创建TZ词典： 1 2 3 4 5 6 CREATE TEXT SEARCH DICTIONARY thesaurus_astro ( TEMPLATE = thesaurus, DictFile = thesaurus_astro, Dictionary = pg_catalog.english_stem, FILEPATH = 'obs://bucket_name/path accesskey=ak secretkey=sk region=rg' ); 其中，词典定义文件全名为thesaurus_astro.ths，所在目录为 "obs://bucket_name/path accesskey=ak secretkey=sk region=rg"。子词典pg_catalog.english_stem是预定义的Snowball类型的英语词干词典，用于规范化输入词，子词典自身相关配置（例如停用词等）不在此处显示。关于创建词典的语法和更多参数，请参见CREATE TEXT SEARCH DICTIONARY。创建词典后，将其绑定到对应文本搜索配置中需要处理的token类型上： 1 2 3 ALTER TEXT SEARCH CONFIGURATION english ALTER MAPPING FOR asciiword, asciihword, hword_asciipart WITH thesaurus_astro, english_stem; 使用TZ词典。测试TZ词典。 ts_lexize函数对于测试TZ词典作用不大，因为该函数是按照单个token处理输入。可以使用plainto_tsquery、to_tsvector、to_tsquery函数测试TZ词典，这些函数能够将输入分解成多个token（to_tsquery函数需要将输入加上引号）。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 SELECT plainto_tsquery('english','supernova star'); plainto_tsquery ----------------- 'sn' (1 row) SELECT to_tsvector('english','supernova star'); to_tsvector ------------- 'sn':1 (1 row) SELECT to_tsquery('english','''supernova star'''); to_tsquery ------------ 'sn' (1 row) 其中，supernova star匹配了词典thesaurus_astro定义中的supernovae stars，这是因为在thesaurus_astro词典定义中指定了Snowball类型的子词典english_stem，该词典移除了e和s。如果同时需要索引原始短语，只要将其同时放置在词典定义文件中对应定义的右侧即可，如下： 1 2 3 4 5 6 7 8 9 10 11 supernovae stars : sn supernovae stars ALTER TEXT SEARCH DICTIONARY thesaurus_astro ( DictFile = thesaurus_astro, FILEPATH = 'file:///home/dicts/'); SELECT plainto_tsquery('english','supernova star'); plainto_tsquery ----------------------------- 'sn' & 'supernova' & 'star' (1 row)

数据仓库服务 GAUSSDB(DWS) 词典

数据仓库服务 GAUSSDB(DWS)-Thesaurus词典:注意事项

注意事项由于TZ词典需要识别短语，所以在处理过程中必须保存当前状态并与解析器进行交互，以决定是否处理下一个token或是结束当前识别。此外，TZ词典配置时需谨慎，如果设置TZ词典仅处理asciiword类型的token，则类似one 7的分类词典定义将不会生效，因为uint类型的token不会传给TZ词典处理。在索引期间要用到分类词典，因此分类词典参数中的任何变化都要求重新索引。对于其他大多数类型的词典来说，类似添加或删除停用词这种修改并不需要强制重新索引。

数据仓库服务 GAUSSDB(DWS) 词典

云数据库 GAUSSDB-Simple词典:注意事项

注意事项大多数词典的功能依赖于词典定义文件，词典定义文件名仅支持小写字母、数字、下划线组合。临时模式pg_temp下不允许创建词典。词典定义文件的字符集编码必须为UTF-8格式。实际应用时，如果与数据库的字符编码格式不一致，在读入词典定义文件时会进行编码转换。通常情况下，每个session仅读取词典定义文件一次，当且仅当在第一次使用该词典时。需要修改词典文件时，可通过ALTER TEXT SEARCH DICTIONARY命令进行词典定义文件的更新和重新加载。

云数据库 GAUSSDB 词典

云数据库 GAUSSDB-Simple词典:操作步骤

操作步骤创建Simple词典。 1 2 3 4 gaussdb=# CREATE TEXT SEARCH DICTIONARY public.simple_dict ( TEMPLATE = pg_catalog.simple, STOPWORDS = english ); 其中，停用词表文件全名为english.stop。关于创建simple词典的语法和更多参数，请参见CREATE TEXT SEARCH DICTIONARY。使用Simple词典。 1 2 3 4 5 6 7 8 9 10 11 gaussdb=# SELECT ts_lexize('public.simple_dict','YeS'); ts_lexize ----------- {yes} (1 row) gaussdb=# SELECT ts_lexize('public.simple_dict','The'); ts_lexize ----------- {} (1 row) 设置参数ACCEPT=false，使Simple词典返回NULL，而不是返回非停用词的小写形式。 1 2 3 4 5 6 7 8 9 10 11 12 13 gaussdb=# ALTER TEXT SEARCH DICTIONARY public.simple_dict ( Accept = false ); ALTER TEXT SEARCH DICTIONARY gaussdb=# SELECT ts_lexize('public.simple_dict','YeS'); ts_lexize ----------- (1 row) gaussdb=# SELECT ts_lexize('public.simple_dict','The'); ts_lexize ----------- {} (1 row)

云数据库 GAUSSDB 词典

云数据库 GAUSSDB-Thesaurus词典:操作步骤

操作步骤创建一个名为thesaurus_astro的TZ词典。以一个简单的天文学词典thesaurus_astro为例，其中定义了两组天文短语及其同义词如下： 1 2 supernovae stars : sn crab nebulae : crab 执行如下语句创建TZ词典： 1 2 3 4 5 6 postgres=# CREATE TEXT SEARCH DICTIONARY thesaurus_astro ( TEMPLATE = thesaurus, DictFile = thesaurus_astro, Dictionary = pg_catalog.english_stem, FILEPATH = 'file:///home/dicts/' ); 其中，词典定义文件全名为thesaurus_astro.ths，所在目录为当前连接CN节点的/home/dicts/下。子词典pg_catalog.english_stem是预定义的Snowball类型的英语词干词典，用于规范化输入词，子词典自身相关配置（例如停用词等）不在此处显示。关于创建词典的语法和更多参数，请参见CREATE TEXT SEARCH DICTIONARY。创建词典后，将其绑定到对应文本搜索配置中需要处理的token类型上： 1 2 3 postgres=# ALTER TEXT SEARCH CONFIGURATION russian ALTER MAPPING FOR asciiword, asciihword, hword_asciipart WITH thesaurus_astro, english_stem; 使用TZ词典。测试TZ词典。 ts_lexize函数对于测试TZ词典作用不大，因为该函数是按照单个token处理输入。可以使用plainto_tsquery、to_tsvector、to_tsquery函数测试TZ词典，这些函数能够将输入分解成多个token（to_tsquery函数需要将输入加上引号）。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 postgres=# SELECT plainto_tsquery('russian','supernova star'); plainto_tsquery ----------------- 'sn' (1 row) postgres=# SELECT to_tsvector('russian','supernova star'); to_tsvector ------------- 'sn':1 (1 row) postgres=# SELECT to_tsquery('russian','''supernova star'''); to_tsquery ------------ 'sn' (1 row) 其中，supernova star匹配了词典thesaurus_astro定义中的supernovae stars，这是因为在thesaurus_astro词典定义中指定了Snowball类型的子词典english_stem，该词典移除了e和s。如果同时需要索引原始短语，只要将其同时放置在词典定义文件中对应定义的右侧即可，如下： 1 2 3 4 5 6 7 8 9 10 11 supernovae stars : sn supernovae stars postgres=# ALTER TEXT SEARCH DICTIONARY thesaurus_astro ( DictFile = thesaurus_astro, FILEPATH = 'file:///home/dicts/'); postgres=# SELECT plainto_tsquery('russian','supernova star'); plainto_tsquery ----------------------------- 'sn' & 'supernova' & 'star' (1 row)

云数据库 GAUSSDB 词典

云数据库 GAUSSDB-Thesaurus词典:注意事项

注意事项由于TZ词典需要识别短语，所以在处理过程中必须保存当前状态并与解析器进行交互，以决定是否处理下一个token或是结束当前识别。此外，TZ词典配置时需谨慎，如果设置TZ词典仅处理asciiword类型的token，则类似one 7的分类词典定义将不会生效，因为uint类型的token不会传给TZ词典处理。在索引期间要用到分类词典，因此分类词典参数中的任何变化都要求重新索引。对于其他大多数类型的词典来说，类似添加或删除停用词这种修改并不需要强制重新索引。

云数据库 GAUSSDB 词典

云数据库 GAUSSDB-Simple词典:操作步骤

操作步骤创建Simple词典。 1 2 3 4 gaussdb=# CREATE TEXT SEARCH DICTIONARY public.simple_dict ( TEMPLATE = pg_catalog.simple, STOPWORDS = english ); 其中，停用词表文件全名为english.stop。关于创建simple词典的语法和更多参数，请参见CREATE TEXT SEARCH DICTIONARY。使用Simple词典。 1 2 3 4 5 6 7 8 9 10 11 gaussdb=# SELECT ts_lexize('public.simple_dict','YeS'); ts_lexize ----------- {yes} (1 row) gaussdb=# SELECT ts_lexize('public.simple_dict','The'); ts_lexize ----------- {} (1 row) 设置参数ACCEPT=false，使Simple词典返回NULL，而不是返回非停用词的小写形式。 1 2 3 4 5 6 7 8 9 10 11 12 13 gaussdb=# ALTER TEXT SEARCH DICTIONARY public.simple_dict ( Accept = false ); ALTER TEXT SEARCH DICTIONARY gaussdb=# SELECT ts_lexize('public.simple_dict','YeS'); ts_lexize ----------- (1 row) gaussdb=# SELECT ts_lexize('public.simple_dict','The'); ts_lexize ----------- {} (1 row)

云数据库 GAUSSDB 词典

云数据库 GAUSSDB-Simple词典:注意事项

注意事项大多数词典的功能依赖于词典定义文件，词典定义文件名仅支持小写字母、数字、下划线组合。临时模式pg_temp下不允许创建词典。词典定义文件的字符集编码必须为UTF-8格式。实际应用时，如果与数据库的字符编码格式不一致，在读入词典定义文件时会进行编码转换。通常情况下，每个session仅读取词典定义文件一次，当且仅当在第一次使用该词典时。需要修改词典文件时，可通过ALTER TEXT SEARCH DICTIONARY命令进行词典定义文件的更新和重新加载。

云数据库 GAUSSDB 词典

云数据库 GAUSSDB-停用词

停用词停用词是很常见的词，几乎出现在每一个文档中，并且没有区分值。因此，在全文搜索的语境下可忽视它们。停用词处理逻辑和词典类型相关。例如，Ispell词典会先对标记进行规范化，然后再查看停用词表，而Snowball词典会最先检查输入标记是否为停用词。例如，每个英文文本包含像a和the的单词，因此没必要将它们存储在索引中。然而，停用词影响tsvector中的位置，同时位置也会影响相关度： 1 2 3 4 gaussdb=# SELECT to_tsvector('english','in the list of stop words'); to_tsvector ---------------------------- 'list':3 'stop':5 'word':6 位置1、2、4是停用词，所以不显示。为包含和不包含停用词的文档计算出的排序是完全不同的： 1 2 3 4 5 6 7 8 9 gaussdb=# SELECT ts_rank_cd (to_tsvector('english','in the list of stop words'), to_tsquery('list & stop')); ts_rank_cd ------------ .05 gaussdb=# SELECT ts_rank_cd (to_tsvector('english','list stop words'), to_tsquery('list & stop')); ts_rank_cd ------------ .1 父主题：词典

云数据库 GAUSSDB 词典

云服务器内容精选

词典

7*24

备案

专业服务

退订

建议反馈

售前咨询热线