检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群不可用排查指导 问题现象 云搜索服务的集群列表中,“集群状态”出现“不可用”。 图1 集群不可用 原因分析及处理方法 如果集群列表的任务状态显示“冻结”,可能是集群冻结状态导致集群不可用。 如果集群列表的任务状态显示“配置错误,重启失败”,可能是X-pack参数配置导致集群不可用。
无法备份索引 索引的备份是通过创建集群快照实现的。遇到无法备份索引问题,请按照如下操作步骤排查解决。 排查集群的创建时间 登录云搜索服务管理控制台。 在左侧导航栏,选择“集群管理”。 在集群管理列表页,查看待备份索引的集群的“创建时间”。 如果创建时间早于2018年3月10日,则
各个分片的大小。 GET _cat/shards?index=index_name&v 检查分片数是否分布不均匀。 提供如下两种方式查看: 通过CSS控制台集群详情页的“集群监控”中的“节点状态”查看,具体操作可参见查看监控指标。 通过CURL客户端,查看集群各个节点的分片个数。
限,以及Kibana的使用权限。 有关安全集群的更多安全配置信息以及详细的操作指导,可以参考Elasticsearch的安全模式官方介绍。 约束限制 Kibana中可以自定义用户名、角色名、租户名等,但不支持中文字符。 不同版本的Kibana界面可能有所差异,请以实际操作环境为准。本文以Kibana
中已运行时间最长的一条查询任务进行中断。 fair策略是综合考虑内存和时间两种因素,如果分片查询的堆内存申请大小相差不超过“最大堆内存乘search.isolator.strategy.ratio”的大小,则认为时间较长的查询更应该中断。否则认为堆内存使用较大的查询更应该中断。 默认值:fair
数据类型不兼容导致集群不可用 问题现象 集群进行备份恢复或集群迁移操作后,“集群状态”变为“不可用”。 原因分析 集群出现此场景的原因可能是目标集群不支持被恢复的数据中某些数据类型,比如旧集群有安装一些插件或者定义settings,新集群没有,导致的索引分片无法分配。 处理步骤 在Kibana的“Dev
副本无法分配的情况。即“索引的主备分片数的最大值+1 ≤ 切换前的数据节点数和冷数据节点之和”。 切换前建议做好数据备份,防止升级故障数据丢失。 当集群处于切换可用区过程中,部分节点的AZ属性可能已经更改,此时节点的可用区可能会显示出中间状态,等待任务结束后,集群的可用区显示将恢复正常状态。
副本无法分配的情况。即“索引的主备分片数的最大值+1 ≤ 切换前的数据节点数和冷数据节点之和”。 切换前建议做好数据备份,防止升级故障数据丢失。 当集群处于切换可用区过程中,部分节点的AZ属性可能已经更改,此时节点的可用区可能会显示出中间状态,等待任务结束后,集群的可用区显示将恢复正常状态。
录所用的账号或IAM用户是否具有使用自定义词库功能的权限,具体操作请参见排查是否有权限。 排查是否有权限 登录统一身份认证服务管理控制台。 查看当前登录所用的账号或IAM用户所属的用户组。 具体操作请参见《统一身份认证服务用户指南》中的查看或修改用户信息章节。 查看用户组的权限中
ECS无法连接到集群 遇到该问题,请按照如下操作步骤排查解决。 先确认ECS实例和集群是否在同一个VPC。 如果在,执行步骤2。 如果不在,需要重新创建ECS实例,使之和集群在同一个VPC下。 查看集群的安全组的出方向和入方向是否已允许9200端口(TCP协议),或者允许的端口范围已包含9200端口(TCP协议)。
X-pack参数配置导致集群不可用 问题现象 “集群状态”为“不可用”,集群的“任务状态”为“配置错误,重启失败”。 图1 集群配置错误 原因分析 集群可能配置了X-pack相关的自定义参数导致集群不可用。CSS服务不支持X-pack功能。 处理步骤 在集群管理页面,单击不可用的集群名称,进入集群基本信息页面。
检索数据的场景,建议使用随机生成的_id。 设置合适的分片数 分片数建议设置为集群数据节点的倍数,且分片的大小控制在50GB以内。 关闭副本 数据写入与查询错峰执行,在数据写入时关闭数据副本,待数据写入完成后再开启副本。 Elasticsearch 7.x版本中关闭副本的命令如下:
d shards all indices 问题描述 Elasticsearch集群报错unassigned shards all indices,集群状态为red。 原因分析 当前集群存在未分配的shard。 解决方案 在Kibana的“Dev Tools”页面,执行如下命令: POST
pattern报错Forbidden 问题描述 在Kibana界面删除索引模式,单击删除按钮报错Forbidden。 原因分析 之前创建的索引模式无法删除索引模式是因为kibana索引只读导致的,磁盘使用率超过一定阈值会自动转为只读,所以报错没有权限。 解决方案 在Kibana的“Dev Tools
6.2及以上的版本,集群内通信端口9300默认开放在用户VPC的子网上。集群所选安全组需要放通子网内的9300通信端口才能保证节点之间通信。 处理步骤 在集群管理页面,单击不可用的集群名称,进入集群基本信息页面。 单击“配置信息”中的安全组名称,进入当前集群所选安全组的基本信息页面。
删除索引报错“403 Forbidden”是什么原因? 问题描述 执行命令curl –i –u admin:password –XDELETE https://ip:9200/_all(“password”为admin账号的密码,“ip”为集群的内网访问地址)删除所有索引时,报错“403 Forbidden”。
Elasticsearch集群更改规格失败 问题描述 执行集群更改规格操作失败,console界面报错详情如下图所示。 图1 CSS.0073错误 图2 CSS.0011错误 原因分析 当前集群未设置副本数,后台拦截了更改规格的请求。需要设置好副本数,再进行更改规格操作,否则会有分片丢失的风险。 解决方案 设置副本参数:
3版本,这个索引特性是在7.10版本之后才支持的,低版本集群使用该特性将无法分配索引的分片,导致集群不可用。 确定集群是否必须使用该不匹配的特性。 是,创建与所需索引特性相匹配的版本集群,然后将老集群的数据通过备份恢复至新集群。 否,执行下一步。 执行命令去除索引中不符合集群版本的特性。 PUT /index_name/_settings
all entries"异常 问题分析 Elasticsearch后台的bulk的线程池最大只支持接受200请求数队列,超过的请求会被rejected。 解决方案 建议根据实际情况调整客户端的并发写入请求数(调整到一个合适的阈值),另外被rejected的http请求ES-Hadoop是有重试机制的,可修改以下参数:
约束与限制 您能创建的CSS集群数量与配额有关系,如果您想查看服务配额、扩大配额,具体请参见服务配额。 更详细的限制请参见具体API说明。 终端节点 终端节点(Endpoint)即调用API的请求地址,不同服务不同区域的终端节点不同,您可以从地区和终端节点中查询所有服务的终端节点。 基本概念