检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
序。而这只是一个表面变化,并不会影响搜索结果的排序。 下面是一个例子,仅选择排名前十的匹配: 由于SQL_ASCII的数据库编码格式不支持中文字符,请在Encoding为UTF8/GBK的数据库中执行以下示例: 1 2 3 4 5 6 7 8 9 10 11 12
索引使用约束 下面是一个使用索引的例子,由于SQL_ASCII的数据库编码格式不支持中文字符,请在Encoding为UTF8/GBK的数据库中执行以下示例: 1 2 3 4 5 6 7 8 9 10 11 12 CREATE TBALE table1 (c_int
控制文本搜索 解析文档 解析查询 排序查询结果 高亮搜索结果 父主题: 全文检索
使用substring截取带中文的数据时出现乱码 问题现象 客户需要查询某张表的name字段,返回的数据中只截取到“学年”及以前部分,使用substring函数实现时出现乱码,如下图所示。 原因分析 UTF-8字符集编码下,一个中文占3个字节,如需获取结果显示为“2014-201
的是:这只是一个表面变化,并不会影响搜索结果的排序。 下面是一个例子,仅选择排名前十的匹配: 由于SQL_ASCII的数据库编码格式不支持中文字符,请在Encoding为UTF8/GBK的数据库中执行以下示例: 1 2 3 4 5 6 7 8 9 10 11 12
测试和调试文本搜索 分词器测试 解析器测试 词典测试 父主题: 全文检索
Hudi(发音Hoodie)表示Hadoop Upserts Deletes and Incrementals。用来管理Hadoop大数据体系下存储在DFS上大型分析数据集。 Hudi不是单纯的数据格式,而是一套数据访问方法(类似GaussDB(DWS)存储的access层),在Apache Hudi 0.9
概述 数据集成围绕GaussDB(DWS),提供了简单易用的迁移能力及多种数据源到DWS的集成能力,降低用户数据源迁移和集成的复杂性,是一种高效易用的数据集成服务。目前数据源支持从Kafka、MySQL、Oracle和IoT源端迁移至GaussDB(DWS)目的端。 该特性仅8.2
都需要指定一个文本搜索配置来指定具体的处理过程。GUC参数default_text_search_config指定了默认的文本搜索配置,当文本搜索函数中没有显式指定文本搜索配置参数时,将会使用该默认值进行处理。 GaussDB(DWS)中预定义有一些可用的文本搜索配置,用户也可
character、char 单字节内部类型。 1 text 变长字符串。 可变长度 nvarchar2 变长字符串。 可变长度 clob 文本大对象。 可变长度 日期/时间类型 timestamp with time zone 日期和时间,带时区。 8 timestamp without
在数据库表中搜索文本 搜索表 创建GIN索引 索引使用约束 父主题: 全文检索
returns tsvector to_tsvector将文本文档解析为token,再将token简化到词素,并返回一个tsvector。其中tsvector中列出了词素及它们在文档中的位置。文档是根据指定的或默认的文本搜索分词器进行处理的。这里有一个简单的例子: 1 2 3 4
TPC-H测试结果 DWS测试了使用存算一体和存算分离两种部署架构下,TPC-H 1T规模数据集的开箱查询性能,共22个查询。存算一体查询总耗时为170.08s,存算分离查询总耗时为172.62s。 图1 TPC-H 1000X开箱性能 详细性能数据见下表。 表1 TPC-H测试结果
测试和调试文本搜索 分词器测试 解析器测试 词典测试 父主题: 全文检索
这样的词素将匹配tsquery中指定字符串和权重的项。 plainto_tsquery plainto_tsquery将未格式化的文本querytext变换为tsquery。类似于to_tsvector,文本被解析并且标准化,然后在存在的词之间插入&(AND)布尔算子。 plainto_tsquery([ config
querytext text) returns tsquery plainto_tsquery将未格式化的文本querytext变换为tsquery。类似于to_tsvector,文本被解析并且标准化,然后在存在的词之间插入&(AND)布尔算子。 比如: 1 2 3 4 5 SELECT
m', 'a'); ts_lexize ----------- {} ts_lexize函数支持单一token,不支持文本。 父主题: 测试和调试文本搜索
character varying(18) 原因分析 以UTF-8编码为例,一个中文占3~4个字节,即8个中文占24~32字节,超出VARCHAR(18)的最大18字节限制。 当表中某一字段包含有中文字符时,可使用char_length或length函数来查询字段字符长度,使用lengthb函数来查询字段字节长度。
returns tsvector to_tsvector将文本文档解析为token,再将token简化到词素,并返回一个tsvector。其中tsvector中列出了词素及它们在文档中的位置。文档是根据指定的或默认的文本搜索分词器进行处理的。这里有一个简单的例子: 1 2 3 4
使用DataArts Studio服务创建GaussDB(DWS)外表时不支持中文,如何处理 问题现象 使用DataArts Studio服务创建GaussDB(DWS)的OBS外表,并且在创建外表语句中指定OBS文件编码格式是UTF-8,但是导入数据时报错,如何处理? 原因分析