检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
单节点集群打开Cerebro界面显示告警 原因分析 单节点集群索引默认有副本,但是副本无法下发请求,所以显示告警。 解决方案 在Kibana的“Dev Tools”页面,执行以下命令将索引副本数量修改为“0”。 PUT _all/_settings { "index" : {
问题描述 执行集群更改规格操作失败,console界面报错详情如下图所示。 图1 CSS.0073错误 图2 CSS.0011错误 原因分析 当前集群未设置副本数,后台拦截了更改规格的请求。需要设置好副本数,再进行更改规格操作,否则会有分片丢失的风险。 解决方案 设置副本参数:
集群索引插入数据失败 问题现象 向CSS集群索引中插入数据失败,报错如下: 问题分析 当磁盘的使用率超过95%时,Elasticsearch为了防止节点耗尽磁盘空间,自动将索引设置为只读模式。 解决方案 新版本(7.10.2之后)集群磁盘使用率下降后会自动关闭只读模式,只需清理或扩容磁盘。
Kibana中删除index pattern报错Forbidden 问题描述 在Kibana界面删除索引模式,单击删除按钮报错Forbidden。 原因分析 之前创建的索引模式无法删除索引模式是因为kibana索引只读导致的,磁盘使用率超过一定阈值会自动转为只读,所以报错没有权限。 解决方案 在Kibana的“Dev
集群不可用排查指导 问题现象 云搜索服务的集群列表中,“集群状态”出现“不可用”。 图1 集群不可用 原因分析及处理方法 如果集群列表的任务状态显示“冻结”,可能是集群冻结状态导致集群不可用。 如果集群列表的任务状态显示“配置错误,重启失败”,可能是X-pack参数配置导致集群不可用。
[name=admin, roles=[admin], requestedTenant=null]" }, "status": 403 } 原因分析 安全集群,默认有一个“. opendistro_security”索引,不可执行写操作,修改索引读写模式时要忽略掉这个索引。 解决方案
ES-Hadoop导数据时报"Could not write all entries"异常 问题分析 Elasticsearch后台的bulk的线程池最大只支持接受200请求数队列,超过的请求会被rejected。 解决方案 建议根据实际情况调整客户端的并发写入请求数(调整到一个
contacting Elasticsearch at URL 'https://192.168.xx.xx:9200/_xpack'。 原因分析 目前云搜索服务没有集成x-pack插件,自行搭建logstash连接css服务的时候,会检查es是否启用了x-pack。 处理步骤 删除logstash中的x-pack目录。
无法正常打开Kibana 问题现象 Es-event集群单击进入kibana后,会出现一直卡在加载页面中,不能进入Kibana控制台。 原因分析 浏览器缓存导致,清理缓存。 处理步骤 登录云搜索服务管理控制台。 在左侧导航栏,单击“集群管理”。 在集群对应的“操作”列,单击“Kibana”,打开Kibana界面。
集群冻结状态导致集群不可用 问题现象 “集群状态”为“不可用”,集群的“任务状态”为“冻结”。 图1 集群冻结状态 原因分析 集群出现冻结状态的原因是账户欠费或包年包月集群的订购周期已到期。 处理步骤 按需计费集群 在华为云控制台上方单击“费用与成本”进入费用中心。 在“总览”页面查看账户的欠费情况。
修改为2个索引副本为例。 当采用多可用区部署时,如果某个可用区发生故障,相关的业务故障行为分析及应对策略请参见表2。 表2 AZ故障的业务故障行为分析 可用区数量 主节点个数 业务中断行为及应对建议 2 0 如果节点个数为2的倍数: 一半的数据节点故障,需要替换故障可用区中的一个节点,才能继续选择主节点。
获取智能运维任务列表及详情 功能介绍 该接口用于获取智能运维任务列表及详情。 调用方法 请参见如何调用API。 URI GET /v1.0/{project_id}/clusters/{cluster_id}/ai-ops 表1 路径参数 参数 是否必选 参数类型 描述 project_id
which is not a quorum”。 图1 节点报错日志示例 原因分析 出现以上报错日志表示集群各节点之间无法通信,导致集群无法进行选主,可能原因是集群当前所选安全组未放通9300端口。 云搜索服务在7.6.2及以上的版本,集群内通信端口9300默认开放在用户VPC的子网上。集群
X-pack参数配置导致集群不可用 问题现象 “集群状态”为“不可用”,集群的“任务状态”为“配置错误,重启失败”。 图1 集群配置错误 原因分析 集群可能配置了X-pack相关的自定义参数导致集群不可用。CSS服务不支持X-pack功能。 处理步骤 在集群管理页面,单击不可用的集群名称,进入集群基本信息页面。
数据类型不兼容导致集群不可用 问题现象 集群进行备份恢复或集群迁移操作后,“集群状态”变为“不可用”。 原因分析 集群出现此场景的原因可能是目标集群不支持被恢复的数据中某些数据类型,比如旧集群有安装一些插件或者定义settings,新集群没有,导致的索引分片无法分配。 处理步骤 在Kibana的“Dev
集群突现load高的故障排查 问题现象 集群任务被长时间拒绝,且大量任务出现卡死的情况,在Cerebro界面可以看到集群的load数值突然飙升。 原因分析 集群出现load升高的可能原因如下: 查询请求命中的数据较多导致查询线程执行缓慢。 写入压力过大导致很多线程出现卡死现象。 排查步骤 方法1:Cerebro工具
many scroll contexts. Must be less than or equal to: [100000]. ...... 原因分析 当集群每调用一次scroll的创建接口,都会新建一个scroll使用的context,当scroll contexts的数目达到预定值时,将无法继续创建scroll。
除了默认的LZ4算法,云搜索服务还支持自定义best_compression算法。该算法适用于写入量大、索引存储成本高的场景,例如日志场景、时序分析场景等,可以大大降低索引的存储成本。 执行如下命令,可以将默认压缩算法(LZ4算法)切换为best_compression算法: PUT index-1
overhead spent [x.xs] collecting in the last [x.xs]”。 图1 频繁GC导致OOM 原因分析 集群负载过高,可能是有大量查询或写入任务堆积。当堆内存不足时,任务无法分配,将频繁触发GC,导致Elasticsearch进程异常退出。
”。 图1 节点报错日志示例 CSS服务已下线自定义插件功能,但历史版本的集群可能还装有自定义插件,只有这类集群可能出现该故障。 原因分析 可能是安装的自定义插件与CSS集群版本不兼容,导致Elasticsearch进程无法正常启动。 处理步骤 在集群管理页面,单击不可用的集群名称,进入集群基本信息页面。