检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可以在文本搜索配置中定义一个解析器,以及一组用于处理该解析器的输出标记词典。对于解析器返回的每个标记类型,可以在配置中指定不同的词典列表进行处理。当解析器输出一种类型的标记后,在对应列表的每个词典中会查阅该标记,直到某个词典识别它。如果它被识别为一个停用词, 或者没有任何词典识别,该token将被
GAUSS-02100 GAUSS-02091: "unrecognized OID: '%.*s'" SQLSTATE: XX000 错误原因:内部错误:无法识别的OID号。 解决办法:内部错误,请联系技术支持工程师提供技术支持。 GAUSS-02092: "unexpected right parenthesis"
GAUSS-50099 GAUSS-50000:"Unrecognized parameter: %s." SQLSTATE: 无 错误原因:参数无法识别。 解决办法:检查报错信息中所涉及的参数,如果不是所执行脚本需要指定的参数就会报这个错。 GAUSS-50001:"Incorrect parameter
定义有多种语言的Snowball词典,可通过系统表PG_TS_DICT查看预定义的词干分析词典以及支持的语言词干分析算法。 无论是否可以简化,Snowball词典将标示所有输入为已识别,因此它应当被放置在词典列表的最后。把Snowball词典放在任何其他词典前面会导致后继词典失效
定义有多种语言的Snowball词典,可通过系统表PG_TS_DICT查看预定义的词干分析词典以及支持的语言词干分析算法。 无论是否可以简化,Snowball词典将标识所有输入为已识别,因此它应当被放置在词典列表的最后。把Snowball词典放在任何其他词典前面会导致后继词典失效
存表、列存表。 外表:用于识别数据源文件中的数据。外表中保存了数据源文件的位置、文件格式、编码格式、数据间的分隔符等信息。 导入数据原理 OBS导入原理如图1所示,CN负责任务的规划及下发,它是按文件给每个DN节点分配任务的。 分配算法如下: 例如,图1中,总共有4个节点DN0~DN3,
“>”,“\”,“,”,“|”,“/”。 只能包含大写字母(A-Z)、小写字母(a-z)、数字(0-9)和特殊字符(中划线-、下划线_)以及中文字符。 values Array of strings 值。输入标签值的最大长度为255个字符,首尾字符不能为空格,可以为空字符串。 不能包含“=”
Github地址 参考文档 Java huaweicloud-sdk-java-v3 Java SDK使用指导 Python huaweicloud-sdk-python-v3 Python SDK使用指导 Go huaweicloud-sdk-go-v3 Go SDK使用指导 NodeJs
短语匹配之前使用,用于识别和规范输入文本。 如果子词典无法识别输入词,将会报错。此时,需要移除该词或者更新子词典使其识别。此外,可在indexed words的开头放上一个星号(*)来跳过在其上应用子词典,但是所有sample words必须可以被子词典识别。 如果词典文件定义的sample
短语匹配之前使用,用于识别和规范输入文本。 如果子词典无法识别输入词,将会报错。此时,需要移除该词或者更新子词典使其识别。此外,可在indexed words的开头放上一个星号(*)来跳过在其上应用子词典,但是所有sample words必须可以被子词典识别。 如果词典文件定义的sample
FUNCTION 删除函数 DROP FUNCTION 定义视图 视图是从一个或几个基本表中导出的虚表,可用于控制用户对数据访问,请参考下表。 表13 视图定义相关SQL 功能 相关SQL 创建视图 CREATE VIEW 删除视图 DROP VIEW 定义序列 序列属于数据库对象,用户可以从序列中生成唯一整数。
词典实际上是Synonym词典的一个扩展,增加了短语支持。 注意事项 由于TZ词典需要识别短语,所以在处理过程中必须保存当前状态并与解析器进行交互,以决定是否处理下一个token或是结束当前识别。此外,TZ词典配置时需谨慎,如果设置TZ词典仅处理asciiword类型的token,则类似one
词典实际上是Synonym词典的一个扩展,增加了短语支持。 注意事项 由于TZ词典需要识别短语,所以在处理过程中必须保存当前状态并与解析器进行交互,以决定是否处理下一个token或是结束当前识别。此外,TZ词典配置时需谨慎,如果设置TZ词典仅处理asciiword类型的token,则类似one
力及网络带宽,提升导入效率。 外表灵活的OPTION设置,有利于在数据入库前对数据做预处理,例如非法字符替换、容错处理等。 图1 数据并行导入示意图 上图中所涉及的相关概念说明如下: CN(Coordinator):GaussDB(DWS)协调节点。在导入场景下,接收到应用或客户
使用JDBC/ODBC连接。 • 使用SQL编辑器连接。 • 使用Python第三方库psycopg2、PyGreSQL连接。 发布区域:全部 连接DWS集群 使用gsql命令行客户端连接集群 使用Data Studio图形界面客户端连接集群 数据库参数管理 集群创建成功后,用户可以
排序查询结果 排序是指试图针对特定查询衡量文档的相关度,从而将众多的匹配文档中相关度最高的文档排在最前。GaussDB(DWS)提供了两个预置的排序函数:ts_rank和ts_rank_cd。函数考虑了词法,距离,和结构信息;也就是,考虑查询词在文档中出现的频率、紧密程度、以及出现的地方在文
header:指定导出数据文件是否包含标题行,header只能用于CSV格式的文件中。 delimiter:指定数据文件行数据的字段分隔符,不指定则使用默认分隔符。 外表可以识别的更多参数,详细使用请参见数据格式参数 。 规划并行导入容错性,以控制导入过程中处理错误的方式。 fill_missing_fields:
排序查询结果 排序试图针对特定查询衡量文档的相关度,从而将众多的匹配文档中相关度最高的文档排在最前。GaussDB(DWS)提供了两个预置的排序函数。函数考虑了词法,距离,和结构信息;也就是,考虑查询词在文档中出现的频率、紧密程度、以及出现的地方在文档中的重要性。然而,相关性的概
如何处理? 原因分析 存储在OBS中的源文件含有非UTF-8的数据。 处理方法 排查报错的源文件,检查是否含有非UTF-8的数据,例如中文字符。如果源文件中含有非UTF-8的数据,请先将源文件转换成UTF-8的格式,并重新上传到OBS,然后再执行导入数据的操作。 父主题: 数据导入/导出
面分别进行介绍。 倾斜识别 计算倾斜的识别,即预先识别计算过程中的重分布列是否存在倾斜数据。RLBT方案中给出了三个解决手段,统计信息识别,hint方式指定以及规则识别: 统计信息识别 需要用户先执行ANALYZE收集各表的统计信息,然后优化器能够自动利用统计信息对重分布键上的倾