数据仓库服务 GAUSSDB(DWS)-处理tsvector

时间:2024-12-24 10:32:37

处理tsvector

GaussDB (DWS)提供了用来操作tsvector类型的函数和操作符。

  • tsvector || tsvector

    tsvector连接操作符返回一个新的tsvector类型,它综合了两个tsvector中词素和位置信息,并保留词素的位置信息和权重标签。右侧的tsvector的起始位置位于左侧tsvector的最后位置,因此,新生成的tsvector几乎等同于将两个原始文档字串连接后进行to_tsvector操作。(这个等价是不准确的,因为任何从左边tsvector中删除的停用词都不会影响结果,但是,在使用文本连接时,则会影响词素在右侧tsvector中的位置。)

    相较于对文本进行连接后再执行to_tsvector操作,使用tsvector类型进行连接操作的优势在于可以对文档的不同部分使用不同配置进行解析。因为setweight函数会对给定的tsvector中的语素进行统一设置,如果想要对文档的不同部分设置不同的权重,需要在连接之前对文本进行解析和权重设置。

  • setweight(vector tsvector, weight "char") returns tsvector

    setweight返回一个输入tsvector的副本,其中每一个位置都使用给定的权重做了标记。权值可以为A、B、C或D(D是tsvector副本的默认权重,并且不在输出中呈现)。当对tsvector进行连接操作时,这些权重标签将会被保留,文档不同部分以不同的权重进行排序。

    权重标签作用于位置,而不是词素。如果传入的tsvector已经被剥离了位置信息,那么setweight函数将什么都不做。

  • length(vector tsvector) returns integer

    返回vector中的词素的数量。

  • strip(vector tsvector) returns tsvector

    返回一个tsvector类型,其中包含输入的tsvector的同义词,但不包含任何位置和权重信息。虽然在相关性排序中,这里返回的tsvector要比未拆分的tsvector的作用小很多,但它通常都比未拆分的tsvector小的多。

support.huaweicloud.com/sqlreference-dws/dws_06_0097.html