检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
文档概念 文档是全文搜索系统的搜索单元,例如:杂志上的一篇文章或电子邮件消息。文本搜索引擎必须能够解析文档,而且可以存储父文档的关联词素(关键词)。后续,这些关联词素用来搜索包含查询词的文档。 在GaussDB(DWS)中,文档通常是一个数据库表中一行的文本字段,或者这些字段的可
解析文档 GaussDB(DWS)中提供了to_tsvector函数把文档处理成tsvector数据类型。 1 to_tsvector([ config regconfig, ] document text) returns tsvector to_tsvector将文本文档解析
文档约定 本节描述了本手册的内容、符号、和命令约定。 内容约定 所购买的产品、服务和特性以所签订的合同为准。本文档中描述的所有或部分的产品、服务和特性可不属于购买范围或使用范围。除非合同中另有约定,本文档中的所有陈述、信息和建议皆以“现状”的形式提供,不构成任何明示或暗示的担保、保证或陈述。
文档概念 文档是全文搜索系统的搜索单元,例如:杂志上的一篇文章或电子邮件消息。文本搜索引擎必须能够解析文档,而且可以存储父文档的关联词素(关键词)。后续,这些关联词素用来搜索包含查询词的文档。 在GaussDB(DWS)中,文档通常是一个数据库表中的一行文本字段,或者这些字段的可
解析文档 GaussDB(DWS)中提供了to_tsvector函数把文档处理成tsvector数据类型。 1 to_tsvector([ config regconfig, ] document text) returns tsvector to_tsvector将文本文档解析
word text:词素。 ndoc integer:词素在文档(tsvector)中的编号。 nentry integer:词素出现的频率。 如果设置了权重条件,只有标记了对应权重的词素才会统计频率。例如,在一个文档集中检索使用频率最高的十个单词: 1 2 3 4 5
支持中文字符 输入:中文( 1 CREATE TABLE test11(a int,b int)/*CREATE TABLE test11(a int,b int)*/; 输出 1 CREATE TABLE test11 (a INT,b INT)/*CREATE TABLE test11(a int
使用substring截取带中文的数据时出现乱码 问题现象 客户需要查询某张表的name字段,返回的数据中只截取到“学年”及以前部分,使用substring函数实现时出现乱码,如下图所示。 原因分析 UTF-8字符集编码下,一个中文占3个字节,如需获取结果显示为“2014-201
使用DataArts Studio服务创建GaussDB(DWS)外表时不支持中文,如何处理 问题现象 使用DataArts Studio服务创建GaussDB(DWS)的OBS外表,并且在创建外表语句中指定OBS文件编码格式是UTF-8,但是导入数据时报错,如何处理? 原因分析
character varying(18) 原因分析 以UTF-8编码为例,一个中文占3~4个字节,即8个中文占24~32字节,超出VARCHAR(18)的最大18字节限制。 当表中某一字段包含有中文字符时,可使用char_length或length函数来查询字段字符长度,使用lengthb函数来查询字段字节长度。
使用DLF服务创建DWS外表时不支持中文,如何处理 更多 数据库使用 数据库时间与系统时间不一致,如何更改数据库默认时区? 将Schema中的表的查询权限赋给其他用户,赋权后仍无法查询 SQL语句中字段名称加双引号时,是否区分大小写? 一个中文字符占几个字节,VARCHAR(18)存8个中文字不够? 使用DWS
排序是指试图针对特定查询衡量文档的相关度,从而将众多的匹配文档中相关度最高的文档排在最前。GaussDB(DWS)提供了两个预置的排序函数:ts_rank和ts_rank_cd。函数考虑了词法,距离,和结构信息;也就是,考虑查询词在文档中出现的频率、紧密程度、以及出现的地方在文档中的重要性。然
排序查询结果 排序试图针对特定查询衡量文档的相关度,从而将众多的匹配文档中相关度最高的文档排在最前。GaussDB(DWS)提供了两个预置的排序函数。函数考虑了词法,距离,和结构信息;也就是,考虑查询词在文档中出现的频率、紧密程度、以及出现的地方在文档中的重要性。然而,相关性的概念是模
github.com/hightman/scws)分词算法,适用于有语义的中文分词场景。SCWS是一套基于词频词典的机械式中文分词引擎,可以将一整段的中文文本正确地切分成词。支持GBK、UTF-8两种中文编码格式。内置26种token类型如表3所示: 表3 token类型 Alias
github.com/hightman/scws)分词算法,适用于有语义的中文分词场景。SCWS是一套基于词频词典的机械式中文分词引擎,可以将一整段的中文文本正确地切分成词。支持GBK、UTF-8两种中文编码格式。内置26种token类型如表3所示: 表3 token类型 Alias
停用词 停用词是很常见的词,几乎出现在每一个文档中,并且没有区分值。因此,在全文搜索的语境下可忽视它们。停用词处理逻辑和词典类型相关。例如,Ispell词典会先对标记进行规范化,然后再查看停用词表,而Snowball词典会最先检查输入标记是否为停用词。 例如,每个英文文本包含像a
停用词 停用词是很常见的词,几乎出现在每一个文档中,并且没有区分值。因此,在全文搜索的语境下可忽视它们。停用词处理逻辑和词典类型相关。其中,Ispell词典会先对标记进行规范化,然后再查看停用词表,而Snowball词典会最先检查输入标记是否为停用词。 例如,每个英文文本包含像a
encoding '%s': %s" SQLSTATE: 22021 错误原因:无法识别的字符序列。 解决办法:请参考PostgreSQL中文文档中“字符集支持”小节检查数据中是否有无法识别的字符编码。 GAUSS-02607: "character with byte sequence
CONNECT BY 系统函数 PL/SQL PL/SQL集合(使用自定义类型) PL/SQL包 VARRAY 授予执行权限 包名列表 数据类型 支持中文字符 父主题: DSC
插入或更新数据时报错,提示分布键不能被更新 执行SQL语句时提示“Connection reset by peer” VARCHAR(n)存储中文字符,提示value too long for type character varying? SQL语句中字段名大小写敏感问题 删除表时报错:cannot