华为云用户手册

  • 修改企业项目 针对之前已创建的集群,其绑定的企业项目可根据实际情况进行修改。 登录在 云搜索服务 管理控制台, 在左侧导航栏,选择对应的集群类型,进入集群管理页面。 在集群列表中,单击集群名称进入集群“基本信息”页面。 在集群“基本信息”页面,单击“企业项目”右侧的企业项目名称,进入项目管理页面。 在“资源”页签下,“区域”选项中选择当前集群所在的区域,“服务”选项中选“ 云搜索 服务 CSS ”。此时,资源列表将筛选出对应的 CS S集群。 图1 筛选CSS集群 勾选需要修改企业项目的集群,然后单击“迁出”。 在“迁出资源”页面,选择“迁出方式”,再选择“请选择要迁入的企业项目”,然后单击“确定”。 迁出完成后,可以在云搜索服务管理控制台集群管理页面,查看修改后的集群企业项目信息。
  • 标签管理 CSS服务支持对集群标签进行增删改查。 登录云搜索服务管理控制台。 在集群管理页面,单击待管理标签的集群名称。 系统跳转至该集群“基本信息”页面。 左侧菜单栏选择“标签”,在此可以对集群标签进行添加,修改,删除操作。 查看 在“标签”页,可以查看当前集群的标签详情,包括标签个数,以及每个标签的键和值。 添加 单击左上角的“编辑标签”,在弹出的“编辑标签”窗口,单击“添加新标签”输入标签的键和值,并单击“确定”返回标签列表。 修改 单击左上角的“编辑标签”,在弹出的“编辑标签”窗口,修改标签的键和值,并单击“确定”返回标签列表。 删除 单击左上角的“编辑标签”,在弹出的“编辑标签”窗口,单击标签所在行的“删除”,删除后单击“确定”返回标签列表。 表1 标签命名规则 参数 说明 标签键 对于同一个集群,标签键值唯一。 长度不超过64个字符。 只能包含数字、英文字母、下划线、中划线、中文以及特殊字符“_ . : = + - @”。不能以空格开头和结尾。 不能为空。 标签值 长度不超过64个字符。 只能包含数字、英文字母、下划线、中划线、中文以及特殊字符“_ . : = + - @/”。不能以空格开头和结尾。 不能为空。
  • 查看集群风险项 当检测任务完成时,可以查看检测结果。 登录云搜索服务管理控制台。 在集群管理页面,单击集群名称,跳转至该集群基本信息页面。 左侧菜单栏选择“智能运维”。 在智能运维列表页面,选择已启动的检测任务。单击下方的,可查看当前检测任务的“创建时间”、“摘要”、“ID”以及检测任务所发现的“风险项”。 单击风险项左侧,可查看风险项详情,包括检测项、风险描述、风险建议。 您可以根据风险建议及时处理集群所存在的风险。 图1 风险项 单击智能运维列表操作列的“导出风险项”,支持下载检测结果。
  • 场景描述 集群的智能运维支持以下功能: 启动检测任务:通过启动检测任务,触发系统智能诊断集群的健康状况。 查看集群风险项:检测任务完成后,可以查看集群存在的风险项详情,根据风险建议及时处理集群存在的风险。 删除检测任务:当不需要历史所创建的检测任务时,可删除检测任务。删除检测任务后,系统将删除检测任务所对应的所有诊断信息。 智能运维的检查项包含如下项目。 检查当前时刻集群的健康状态,其中red表示有主分片未分配,yellow表示有副分片未分配,green表示所有分片均已分配。 检测集群节点数与AZ(可用区)数,判定Elasticsearch分布式集群的高可用性。 检测集群索引是否开启副本,未设置副本的索引在节点发生故障后可能导致索引不可用,本地盘集群未设置副本会有数据丢失的风险。 检测集群是否存在kibana索引冲突。 检测节点磁盘用量百分比,节点磁盘存储过大可能导致节点无法分配新索引分片并影响集群性能。 检测集群数据节点/冷数据节点的存储用量是否均衡,不均衡的存储用量分布可能导致集群负载不均,读写延迟增加。 连续5分钟检测当前集群是否有节点脱离或不可用。 检测节点分片数量是否过多,单节点分片数量过多会消耗大量节点资源,读写请求时延增加,集群元数据更新缓慢等。 检测所有分片大小,分片太大可能导致查询性能下降,节点内存消耗增加,影响扩缩容以及节点故障时分片的恢复速率等。 检测当前集群是否存在可升级的版本。 检测集群7天内是否有快照备份失败,或7天内无快照备份记录。
  • 启动检测任务 登录云搜索服务管理控制台。 在集群管理页面,单击需要进行智能运维的集群名称,跳转至该集群基本信息页面。 左侧菜单栏选择“智能运维”。 在智能运维页面,单击左上角的“启动检测”。 在对话框中填写检测任务的基本信息,单击“确定”。 表1 配置检测任务 参数 说明 名称 检测任务的名称。 描述 检测任务的简短描述。 SMN 主题 当勾选“任务完成后发送SMN告警”时,需要选择当前账号已创建的SMN主题。 告警灵敏度 当勾选“任务完成后发送SMN告警”时,需要选择告警灵敏度。 当检测到的风险项存在大于等于此告警敏感度的条目,则发送SMN告警消息,消息内容则包含所有风险项。 当检测任务状态变成“完成”时,表示智能检测结束,可以查看集群风险项。
  • 查看资源告警 在总览页面查看CSS服务的告警信息。 登录云搜索服务管理控制台。 在左侧导航栏选择“总览”,在“告警”模块查看告警信息。 图1 告警信息 单击“全部”,在“告警记录”弹窗中查看详细告警信息。 鼠标悬停在资源名称上,会显示告警情况。 单击“告警配置”,在告警配置页面根据页面提示设置告警规则。 如果预置的告警规则无法满足需求,单击“创建告警规则”可以新建告警规则。具体操作请参见 云监控服务 CES的创建告警规则和通知。
  • 开启索引回收站 执行如下命令,启用索引回收站功能。 PUT _cluster/settings { "persistent": { "index.trash.enabled": true } } 表1 配置项说明 配置项 说明 “index.trash.enabled” 索引回收站开关,缺省值是“false”,表示不启用索引回收站功能,集群与开源Elasticsearch集群的能力兼容。当设置成“true”时,表示开启索引回收站功能,执行删除索引的操作后,索引将被存放至回收站中,需要再次执行删除索引的操作才能彻底删除索引数据。 “indices.trash.keep.time” 索引在回收站中的存放时长,缺省值是“1d”,表示索引在回收站中存放1天后将被系统彻底删除。最小值为“1d”。 执行如下命令,删除索引。 DELETE {INDEX_NAME} 其中“INDEX_NAME”为需要删除的索引名称,支持通配符。
  • 约束限制 仅Elasticsearch 7.10.2集群支持索引回收站功能。 当开启回收站之后,使用DELETE API将索引放入回收站时,集群的状态可能会出现短暂的RED,这是由于索引存放至回收站时会将索引CLOSE,在Elasticsearch中CLOSE索引时会出现短暂的RED状态。 当使用还原API从回收站中还原索引时,集群的状态可能会出现短暂的RED,这是由于还原索引时需要重新OPEN索引,在Elasticsearch中OPEN索引时会重新初始化分片,导致短暂的RED状态。 存放在回收站中的索引仍然是集群元数据的一部分,因此集群无法新建和回收站中的同名的索引。
  • 查看回收站中的索引 执行如下命令,查看索引回收站中的索引。 GET _cat/trash?v=true&s=index 表2 参数说明 参数名称 说明 v 当返回值格式是表格形式时,设置是否显示表头。 true:显示表头。 false:不显示表头。 缺省值是“false”。 s 指定索引的排序字段。可选值为“index”、“uuid”、“pri”、“rep”、“trash.ts”、“delete.time”。 format 设置返回值的呈现格式,默认为表格形式,支持json、yaml、cobr、smile,其中cobr和smile为二进制格式。 h 设置需要显示的列名,默认全部显示,当只需要显示部分列名时,可以通过逗号隔开列名,例如“h=index,uuid,delete.time”。 返回值如下所示,此处是示例,仅供参考,请以实际返回值为准。 index uuid pri rep trash.ts delete.time index1 CMD3FCLzTOyTg4RUekWNNA 1 1 1714465116615 23.6h index1 6ATijuu6SfqamVI-WMyOKg 1 1 1714466233898 23.9h 表3 返回值的参数说明 列名 说明 index 索引名称。 uuid 索引的uuid。 pri 索引的分片数。 rep 索引的副本数。 trash.ts 索引存放至回收站的时间。 delete.time 索引在回收站中剩余存放时长,当变成0时,回收站中的索引将被彻底删除。
  • 支持审计的关键操作列表 表1 支持审计的关键操作列表 操作名称 资源类型 事件名称 创建集群 cluster createCluster 按需集群转包周期 cluster updateOndemandClusterToPeriod 查询集群详情 cluster showClusterDetail 删除集群 cluster deleteCluster 修改集群名称 cluster updateClusterName 查询集群列表 cluster listClusters 扩容集群 cluster updateExtendCluster 扩容实例的数量和存储容量 cluster updateExtendInstanceStorage 获取实例规格列表 cluster listFlavors 查询所有标签 cluster listClustersTags 查询指定集群的标签 cluster showClusterTag 添加指定集群标签 cluster createClustersTags 删除集群标签 cluster deleteClustersTags 批量添加或删除集群标签 cluster updateBatchClustersTags 缩容 cluster updateShrinkNodes 指定节点类型规格变更 cluster updateFlavorByType 切换安全组 cluster changeSecurityGroup 创建集群V2 cluster createClusterV2 重启集群 cluster rebootCluster 创建配置文件 cluster createCnf 更新配置文件 cluster updateCnf 启动Pipeline迁移数据 cluster startPipeline 停止Pipeline迁移数据 cluster stopPipeline 添加到自定义模板 cluster addFavorite 连通性测试 cluster startConnectivityTest 查询模板列表 cluster listTemplates 查询配置文件列表 cluster listConfs 查询Pipeline列表 cluster listPipelines 查询操作记录 cluster listActions 查询配置文件内容 cluster showGetConfDetail 删除配置文件 cluster deleteConf 删除自定义模板 cluster deleteTemplate 热启动Pipeline迁移数据 cluster startHotPipeline 热停止Pipeline迁移数据 cluster stopHotPipeline 更新集群路由 cluster updateRoute 获取集群路由 cluster getRoutes 上传证书文件 cluster uploadCerts 查询证书列表 cluster listCerts 查询证书文件信息 cluster showCertsDetail 删除证书文件 cluster deleteCerts 开启日志功能 cluster startLogs 关闭日志功能 cluster stopLogs 查询作业列表 cluster listLogsJob 查询日志基础配置 cluster showGetLogSetting 修改日志基础配置 cluster updateLogSetting 开启日志自动备份策略 cluster startLogAutoBackupPolicy 关闭日志自动备份策略 cluster stopLogAutoBackupPolicy 备份日志 cluster createLogBackup 查询日志 cluster showLogBackup
  • 查看集群的监控信息 在集群列表查看集群和集群节点的监控信息。 登录云搜索服务管理控制台。 在左侧导航栏选择“集群管理”,进入对应类型的集群列表。 在集群列表,选择目标集群,单击操作列“监控信息”查看集群和节点监控信息。 图1 查看监控信息 选择“资源实例”页签,查看集群的监控指标。 资源实例:选择要查看监控信息的集群,默认选择当前集群。支持多选,进行数据对比。 支持设置监控时间,以及查看同一集群的同比/环比数据。 添加视图分组:支持在默认分组的基础上新增自定义的分组。当鼠标悬停在左侧分组名称上,右侧会显示修改名称和删除分组的图标,可以修改分组。 设置指标:在“设置监控指标”弹窗中,可以根据页面提示设置“原始指标”和“TopN指标”。 选择“云服务节点”页签,查看集群节点的监控指标。只会显示“资源实例”页签中选择的第一个资源实例的节点监控信息。 云服务节点:选择要查看监控信息的集群节点,默认选择当前集群的第一个节点。支持多选,进行数据对比。 支持设置监控时间,以及查看同一集群的同比/环比数据。 添加视图分组:支持在默认分组的基础上新增自定义的分组。当鼠标悬停在左侧分组名称上,右侧会显示修改名称和删除分组的图标,可以修改分组。 设置指标:在“设置监控指标”弹窗中,可以根据页面提示设置“原始指标”。
  • Bulk聚合优化 通过指定配置项“index.aggr_perf_batch_size”可以开启集群的Bulk聚合优化。Bulk聚合优化是通过批量导入将Bulk请求中的doc从单个依次写入变为批量写入,该方案可以有效减少内存申请、锁申请、及其他调用开销,从而提升数据导入性能。 在“集群管理”页面,选择可用的集群,单击操作列“Kibana”,登录Kibana界面。 在Kibana左侧导航栏,选择“Dev Tools”。 在“Dev Tools”页面,执行如下命令开启Bulk聚合优化。 PUT my_index { "settings": { "index.aggr_perf_batch_size": "128" } } 配置项“index.aggr_perf_batch_size”的取值范围为[1, Integer.MAX_VALUE]。缺省值为1,表示关闭Bulk聚合优化。当取值大于1时,表示打开Bulk聚合优化且批量取值为MIN(bulk_doc_size, aggr_perf_batch_size)。
  • 索引merge任务优化 开启以上三种数据导入性能优化后,集群的索引merge任务会增加,通过指定配置项“index.merge.scheduler.max_thread_count”可以降低索引merge任务开销对导入性能的影响。索引merge任务优化可以增加shard的合并线程数,减少合并对数据导入的限流。 在“集群管理”页面,选择可用的集群,单击操作列“Kibana”,登录Kibana界面。 在Kibana左侧导航栏,选择“Dev Tools”。 在“Dev Tools”页面,执行如下命令启动索引merge任务优化。 PUT my_index { "settings": { "index.merge.scheduler.max_thread_count": 8 } } 配置项“index.merge.scheduler.max_thread_count”的取值范围是[1, node.processors/2],缺省值是4,建议设置为8。
  • 文本索引加速 通过指定配置项“index.native_speed_up”可以开启文本索引加速。索引加速功能通过优化索引流程以及内存使用等方式实现,对于文本字段(text、keyword)能够极大提升索引构建的性能。当开启文本索引加速时,支持通过指定配置项“index.native_analyzer”同时开启分词加速。对于需要分词的文本字段(text),当无特殊分词需求时可以开启分词加速提升分词性能。 仅当开启文本索引加速(即“index.native_speed_up”设置为“true”)时,才支持开启分词加速(即“index.native_analyzer”设置为“true”),否则分词加速不生效。 包含“nested”字段的索引不支持开启文本索引加速。 在“集群管理”页面,选择可用的集群,单击操作列“Kibana”,登录Kibana界面。 在Kibana左侧导航栏,选择“Dev Tools”。 在“Dev Tools”页面,执行如下命令开启文本索引加速。 PUT my_index { "settings": { "index.native_speed_up": true, "index.native_analyzer": true } } 配置项“index.native_speed_up”和“index.native_analyzer”的取值范围是true和fales,缺省值是fales。
  • Bulk路由优化 通过指定配置项“index.bulk_routing”可以开启集群的Bulk路由优化,该优化可以减少内部转发的请求数量,在shard数较多的场景下,能够有效提升写入性能以及减少写入拒绝。 开启Bulk路由优化后(即“index.bulk_routing”设置为“pack”或“ocal_pack”),数据写入不再根据“_id”进行路由,与路由的相关功能使用会受限,例如根据“_id”进行文档GET请求可能失败。 在“集群管理”页面,选择可用的集群,单击操作列“Kibana”,登录Kibana界面。 在Kibana左侧导航栏,选择“Dev Tools”。 在“Dev Tools”页面,执行如下命令开启Bulk路由优化。 PUT my_index { "settings": { "index.bulk_routing": "local_pack" } } 配置项“index.bulk_routing”的取值范围如下所示。 “default”:缺省值,使用集群默认的路由机制,Bulk请求中的每一条记录会拆分后独立路由。 “pack”:单个Bulk请求的数据会被随机路由到同一个shard中。 “ocal_pack”:单个Bulk请求的数据会被路由到接收该Bulk请求的数据节点的本地shard中,如果该节点不包含对应index的shard,则会进行随机路由到其他包含该索引shard节点上。该方案依赖客户端Bulk请求的随机打散和主shard的均衡分布。
  • 特性介绍 数据导入性能增强为云搜索服务自主研发的特性,通过优化Bulk路由、文本索引加速、分词加速等方式,有效提升导入性能以及降低写入拒绝的情况。适用于索引分片较多、文本索引量大、导入吞吐量高的场景。 表1 数据导入性能优化方式 优化方式 功能描述 相关文档 Bulk路由优化 根据Elasticsearch默认的路由规则,Bulk请求中的每一条数据会被路由到不同的shard,当索引分片较多时,会产生大量的内部转发请求,在大规模写入场景下容易触发写拒绝。同时,在大规模集群中,长尾效应会导致Bulk请求时延较高。 通过指定配置项“index.bulk_routing”可以开启集群的Bulk路由优化,该优化可以减少内部转发的请求数量,在shard数较多的场景下,能够有效提升写入性能以及减少写入拒绝。 说明: 开启Bulk路由优化后(即“index.bulk_routing”设置为“pack”或“ocal_pack”),数据写入不再根据“_id”进行路由,与路由的相关功能使用会受限,例如根据“_id”进行文档GET请求可能失败。 Bulk路由优化 Bulk聚合优化 通过指定配置项“index.aggr_perf_batch_size”可以开启集群的Bulk聚合优化。Bulk聚合优化是通过批量导入将Bulk请求中的doc从单个依次写入变为批量写入,该方案可以有效减少内存申请、锁申请、及其他调用开销,从而提升数据导入性能。 Bulk聚合优化 文本索引加速 通过指定配置项“index.native_speed_up”可以开启文本索引加速。索引加速功能通过优化索引流程以及内存使用等方式实现,对于文本字段(text、keyword)能够极大提升索引构建的性能。当开启文本索引加速时,支持通过指定配置项“index.native_analyzer”同时开启分词加速。对于需要分词的文本字段(text),当无特殊分词需求时可以开启分词加速提升分词性能。 说明: 仅当开启文本索引加速(即“index.native_speed_up”设置为“true”)时,才支持开启分词加速(即“index.native_analyzer”设置为“true”),否则分词加速不生效。 包含“nested”字段的索引不支持开启文本索引加速。 文本索引加速 索引merge任务优化 开启以上三种数据导入性能优化后,集群的索引merge任务会增加,通过指定配置项“index.merge.scheduler.max_thread_count”可以降低索引merge任务开销对导入性能的影响。索引merge任务优化可以增加shard的合并线程数,减少合并对数据导入的限流。 索引merge任务优化
  • 节点监控指标列表 监控的指标ID、指标名称、指标含义以及取值范围参见表2。 监控的测量对象:CSS集群 - 云服务节点 监控的监控周期(原始指标):1分钟 表2 云搜索服务节点支持的监控指标 指标ID 指标名称 指标含义 取值范围 jvm_heap_usage JVM堆使用率 节点JVM堆内存使用率。 单位:百分比 0-100% cpu_usage CPU利用率 CPU利用率。 单位:百分比 0-100% load_average 节点Load值 操作系统中1分钟平均排队任务数。 ≥ 0 jvm_old_gc_count JVM老年代总GC次数 “老年代”垃圾回收的运行次数。 ≥ 0 jvm_old_gc_time JVM老年代总GC时间 执行“老年代”垃圾回收所花费的时间。 单位:ms ≥ 0 ms jvm_young_gc_count JVM年轻代总GC次数 “年轻代”垃圾回收的运行次数。 ≥ 0 jvm_young_gc_time JVM年轻代GC时间 执行“年轻代”垃圾回收所花费的时间。 单位:ms ≥ 0 ms events_in 当前节点经过input插件的数据数 该指标用于统计当前节点经过input插件的数据数。 ≥ 0 events_filtered 当前节点经过filtered插件的数据数 该指标用于统计当前节点过滤处理的数据数。 ≥ 0 events_out 当前节点经过out插件的数据数 该指标用于统计当前节点经过out插件的数据数。 ≥ 0
  • Logstash管道监控指标列表 监控的指标ID、指标名称、指标含义以及取值范围参见表3。 监控的测量对象:CSS集群 - Logstash管道 监控的监控周期(原始指标):1分钟 表3 Logstash管道的监控指标 指标ID 指标名称 指标含义 取值范围 logstash_pipeline_events_in 当前管道监控周期内经过input插件的数据数。 该指标用于统计当前管道监控周期内经过input插件的数据数。 ≥ 0 logstash_pipeline_events_filtered 当前管道监控周期内经过filtered插件的数据数。 该指标用于统计当前管道监控周期内过滤处理的数据数。 ≥ 0 logstash_pipeline_events_out 当前管道监控周期内经过out插件的数据数。 该指标用于统计当前管道监控周期内经过out插件的数据数。 ≥ 0
  • 集群监控指标列表 监控的指标ID、指标名称、指标含义以及取值范围参见表1。 监控的测量对象:CSS集群。本文介绍的是Logstash集群的监控指标列表。 监控的监控周期(原始指标):1分钟 累计值:从节点启动时开始叠加数值,当节点重启后清零重新累计。 表1 云搜索服务支持的监控指标 指标ID 指标名称 指标含义 取值范围 max_jvm_heap_usage 最大JVM堆使用率 CSS集群中各个节点的JVM堆使用率的最大值。 单位:百分比 0-100% max_jvm_young_gc_time 最大JVM Young GC耗时 CSS集群中各个节点的JVM Young GC耗时累计值的最大值。 单位:ms ≥ 0 ms max_jvm_young_gc_count 最大JVM Young GC次数 CSS集群中各个节点的JVM Young GC次数累计值的最大值。 ≥ 0 max_jvm_old_gc_time 最大JVM Old GC耗时 CSS集群中各个节点的JVM Old GC耗时累计值的最大值。 单位:ms ≥ 0 ms max_jvm_old_gc_count 最大JVM Old GC次数 CSS集群中各个节点的JVM Old GC次数累计值的最大值。 ≥ 0 max_cpu_usage 最大CPU利用率 CSS集群中各个节点的CPU利用率的最大值。 单位:百分比 0-100% max_load_average 最大节点Load值 CSS集群中各个节点在操作系统中1分钟平均排队任务数的最大值。 ≥ 0 avg_cpu_usage 平均CPU使用率 CSS集群中各节点CPU利用率的平均值。 单位:百分比 0-100% avg_load_average 平均节点Load值 CSS集群中各节点在操作系统中1分钟平均排队任务数的平均值。 ≥ 0 avg_jvm_heap_usage 平均JVM堆使用率 CSS集群中各节点JVM堆内存使用率的平均值。 单位:百分比 0-100% avg_jvm_old_gc_count JVM老年代平均GC次数 CSS集群中各个节点“老年代”垃圾回收的运行次数的累计值的平均值。 ≥ 0 avg_jvm_old_gc_time JVM老年代平均GC时间 CSS集群中各个节点执行“老年代”垃圾回收所花费的时间累计值的平均值。 单位:ms ≥ 0 ms avg_jvm_young_gc_count JVM年轻代平均GC次数 CSS集群中各个节点“年轻代”垃圾回收的运行次数的累计值的平均值。 ≥ 0 avg_jvm_young_gc_time JVM年轻代平均GC时间 CSS集群中各个节点执行“年轻代”垃圾回收所花费的时间累计值的平均值。 单位:ms ≥ 0 ms sum_events_in 集群下所有节点经过input插件的数据总数 该指标用于统计所有节点经过input插件的数据总数。 ≥ 0 sum_events_filtered 集群下所有节点经过filtere插件的数据总数 该指标用于统计所有节点经过过滤处理的数据总数。 ≥ 0 sum_events_out 集群下所有节点经过out插件的数据总数 该指标用于统计所有节点经过out插件的数据总数。 ≥ 0
  • 修改企业项目 针对之前已创建的集群,其绑定的企业项目可根据实际情况进行修改。 登录在云搜索服务管理控制台, 在左侧导航栏,选择对应的集群类型,进入集群管理页面。 在集群列表中,单击集群名称进入集群“基本信息”页面。 在集群“基本信息”页面,单击“企业项目”右侧的企业项目名称,进入项目管理页面。 在“资源”页签下,“区域”选项中选择当前集群所在的区域,“服务”选项中选“云搜索服务 CSS”。此时,资源列表将筛选出对应的CSS集群。 图1 筛选CSS集群 勾选需要修改企业项目的集群,然后单击“迁出”。 在“迁出资源”页面,选择“迁出方式”,再选择“请选择要迁入的企业项目”,然后单击“确定”。 迁出完成后,可以在云搜索服务管理控制台集群管理页面,查看修改后的集群企业项目信息。
  • 规划虚拟私有云和子网 CSS服务支持在非共享VPC和共享VPC内创建集群。 共享VPC和非共享VPC相比,有如下优势: 在一个账号内统一创建资源,并将资源共享给其他账号,其他账号无需创建重复资源,可以精简资源数量以及网络架构,提升管理效率并节约成本。 比如不同账号下的VPC网络互通需要建立对等连接,使用共享VPC后,则不同账号用户可以在同一个VPC创建资源,免去了对等连接配置,有效的简化组网结构。 在一个账号内统一管理运维资源,便于企业集中配置业务安全策略,并且利于对资源使用情况的监控和审计,支撑业务的安全诉求。 当选择使用共享VPC创建集群时,需要提前完成共享VPC子网的创建,操作流程请参见表2。有关共享VPC的使用限制及详细操作指导等信息可以参考共享VPC概述。 表2 共享子网创建流程说明 方法 说明 操作指导 方法A 通过 RAM 管理控制台,所有者创建共享,将子网共享给使用者。配置如下: 选择共享子网。 为共享子网选择权限,即指定使用者对该共享子网具备的权限。 CSS服务在共享VPC中创建集群需要选择权限:default vpc subnet statement。 指定共享子网的使用者,可以指定多个。 共享创建完成后,通过RAM管理控制台,使用者可以选择接受或者拒绝共享申请。 使用者接受共享申请,子网共享成功。 如果后续使用者不再需要使用该共享子网,可以退出该共享。 使用者拒绝共享申请,子网共享失败。 创建共享 接受/拒绝共享邀请 退出共享 方法B 通过RAM管理控制台,所有者创建共享,将子网共享给使用者。配置如下: 选择共享子网。 为共享子网选择权限,即指定使用者对该共享子网具备的权限。 CSS服务在共享VPC中创建集群需要选择权限:default vpc subnet statement。 指定共享子网的使用者,可以指定多个。 通过VPC管理控制台,选择上一步中已创建的共享,将子网加入到该共享内。 共享创建完成后,通过RAM管理控制台,使用者可以选择接受或者拒绝共享申请。 使用者接受共享申请,子网共享成功。 如果后续使用者不再需要使用该共享子网,可以退出该共享。 使用者拒绝共享申请,子网共享失败。 创建共享 将VPC子网共享给其他账号 接受/拒绝共享邀请 退出共享
  • 规划集群可用区 为防止数据丢失,并确保在服务中断情况下能降低集群的停机时间,从而增强集群的高可用性,CSS服务支持跨可用区(即多可用区)部署。用户可以在同一个区域内选择两个不同的可用区进行集群部署。 在创建集群时,如果用户选择了两个可用区,CSS服务将自动开启跨AZ的高可用性特性,确保节点在这些可用区内均匀分配。系统均匀分配的节点满足各个AZ之间节点数量的差小于等于1,具体的节点分布情况,包括不同数量的节点如何在各个可用区中分布,可以参考表1。 在创建集群时,选择的节点数量都要大于等于2,否则跨可用区部署会失败。 部署跨AZ集群时,节点会被均匀的分布在不同的AZ上。 表1 节点数量和AZ分布 集群节点个数 单AZ 两AZ AZ1 AZ1 AZ2 1个节点 1 不支持 2个节点 2 1 1 3个节点 3 2 1 4个节点 4 2 2 … … … …
  • 规划节点存储 规划节点机型 由于Logstash集群不涉及存储大规格数据,推荐选用计算密集型机型。 规划节点规格 在规划节点规格时,推荐优先考虑高配置但节点数量较少的方案。例如,一个由3个节点组成的集群,每个节点配置为32核CPU和64GB内存,通常比一个由12个节点组成的集群,每个节点配置为8核CPU和16GB内存,在集群的稳定性和扩展性方面更具优势。 优势主要体现在如下方面。 集群稳定性:高配置节点通常能提供更强的处理能力和更大的内存空间,从而提高集群的整体稳定性。 扩容便捷性:当高配置集群遇到性能瓶颈时,可以通过横向扩展轻松解决,即简单地向集群中添加更多具有相同高配置的节点。这种扩展方式简单直接,易于实施。 维护简便:较少的节点数量意味着更少的维护工作和更低的管理复杂性。 相比之下,低配置集群在需要扩容时,往往需要进行纵向扩展,即提升单个节点的配置。这不仅可能涉及更复杂的迁移和升级过程,还可能增加额外的维护成本和技术挑战。 因此,在规划集群时,应综合考虑性能、成本、维护和扩展性,选择最适合业务需求的节点规格。 规划存储容量 Logstash集群的云盘存储容量默认是40GB,且不支持修改,因此无需规划。
  • 推荐配置的监控指标 集群的日常监控,推荐重点配置如下监控指标:磁盘使用率、集群健康状态。 监控集群的cpu、jvm使用情况,推荐重点配置如下监控指标:平均JVM堆使用率、最大JVM堆使用率、平均CPU使用率、最大CPU利用率。 监控集群的写入、查询延迟和吞吐量情况,推荐重点配置如下监控指标:平均索引延迟、平均索引速率、平均查询延迟、平均查询速率。 监控集群的写入、查询的排队队列和拒绝情况,推荐重点配置如下监控指标:Write队列中总排队任务数、Search队列中总排队任务数、Write队列中总的已拒绝任务数、Search队列中总的已拒绝任务数。
  • 查看集群的监控信息 在集群列表查看集群和集群节点的监控信息。 登录云搜索服务管理控制台。 在左侧导航栏选择“集群管理”,进入对应类型的集群列表。 在集群列表,选择目标集群,单击操作列“监控信息”查看集群和节点监控信息。 图1 查看监控信息 选择“资源实例”页签,查看集群的监控指标。 资源实例:选择要查看监控信息的集群,默认选择当前集群。支持多选,进行数据对比。 支持设置监控时间,以及查看同一集群的同比/环比数据。 添加视图分组:支持在默认分组的基础上新增自定义的分组。当鼠标悬停在左侧分组名称上,右侧会显示修改名称和删除分组的图标,可以修改分组。 设置指标:在“设置监控指标”弹窗中,可以根据页面提示设置“原始指标”和“TopN指标”。 选择“云服务节点”页签,查看集群节点的监控指标。只会显示“资源实例”页签中选择的第一个资源实例的节点监控信息。 云服务节点:选择要查看监控信息的集群节点,默认选择当前集群的第一个节点。支持多选,进行数据对比。 支持设置监控时间,以及查看同一集群的同比/环比数据。 添加视图分组:支持在默认分组的基础上新增自定义的分组。当鼠标悬停在左侧分组名称上,右侧会显示修改名称和删除分组的图标,可以修改分组。 设置指标:在“设置监控指标”弹窗中,可以根据页面提示设置“原始指标”。
  • 监控HTTP状态码 根据集群版本选择监控HTTP状态码的命令。 Elasticsearch 7.6.2集群执行如下命令,获取HTTP状态码统计。 GET /_nodes/http_stats 返回样例: { "_nodes" : { "total" : 1, "successful" : 1, "failed" : 0 }, "cluster_name" : "css-8362", "nodes" : { "F9IFdQPARaOJI7oL7HOXtQ" : { "http_code" : { "200" : 114, "201" : 5, "429" : 0, "400" : 7, "404" : 0, "405" : 0 } } } } Elasticsearch 7.10.2集群执行如下命令,获取HTTP状态码统计。 GET _nodes/stats/http 返回样例: { ...... "cluster_name" : "css-2985", "nodes" : { ...... "omvR9_W-TsGApraMApREjA" : { ...... "http" : { "current_open" : 4, "total_opened" : 37, "http_code" : { "200" : 25, "201" : 7, "429" : 0, "400" : 3, "404" : 0, "405" : 0 } } } } }
  • 监控P99时延 执行以下命令,获取当前集群的P99时延。 GET /search/stats/percentile 返回示例如下: { "overall" : { "1.0" : 2.0, "5.0" : 2.0, "25.0" : 6.5, "50.0" : 19.5, "75.0" : 111.0, "95.0" : 169.0, "99.0" : 169.0, "max" : 169.0, "min" : 2.0 }, "last_one_day" : { "1.0" : 2.0, "5.0" : 2.0, "25.0" : 6.5, "50.0" : 19.5, "75.0" : 111.0, "95.0" : 169.0, "99.0" : 169.0, "max" : 169.0, "min" : 2.0 }, "latest" : { "1.0" : 26.0, "5.0" : 26.0, "25.0" : 26.0, "50.0" : 26.0, "75.0" : 26.0, "95.0" : 26.0, "99.0" : 26.0, "max" : 26.0, "min" : 26.0 } } 表2 返回参数说明 参数 说明 overall 表示集群从启动到当前时间的统计数值。 last_one_day 表示最近一天的统计数值。 latest 表示从上次重置到当前时间的统计数值。 P99时延的计算是近似值,不提供精确值,越靠近两端的统计值越准确,即99%的时延比50%的时延更准确。 当重启集群时,P99时延的数据将被清空,会从集群重启成功后重新计算。 监控集群P99时延的命令还可以设置其他配置项。 可以自定义监控的百分百数值。 例如执行如下命令,显示1%、50%和90%的时延数据。 GET /search/stats/percentile { "percents": [1, 50, 90] } 支持手动重置latest统计值。 执行以下命令,重置latest统计值。 POST /search/stats/reset 如下所示,返回“ok”,表示重置成功。 { "nodes" : { "css-c9c8-ess-esn-1-1" : "ok" } }
  • 场景描述 表1 集群内核监控介绍 集群内核监控增强 描述 支持的集群版本 相关文档 P99时延监控 开源Elasticsearch在监控search请求时仅提供了平均延迟指标,这不足以准确反映集群的实际搜索性能。为了改进这一点,CSS服务新增了P99延迟监控特性,能够有效地监控集群search请求的第99百分位延迟。 Elasticsearch 7.6.2、Elasticsearch 7.10.2、 监控P99时延 HTTP状态码 通过HTTP对Elasticsearch的访问会收到响应和相应的状态码,但开源的Elasticsearch原生不支持对这些状态码进行统计,导致无法精确掌握接口调用的具体状况,用户也无法通过监控了解集群的整个请求情况。为了改进这一点,CSS服务新增了HTTP状态码监控功能,能够获取HTTP状态码统计信息。 Elasticsearch 7.6.2、Elasticsearch 7.10.2、 监控HTTP状态码
  • 场景描述 聚合增强在数据聚簇的情况下,利用向量化技术,批量处理数据,从而提升聚合性能,优化可观测性业务的聚合分析能力。 在大规模数据的集聚合分析场景下,耗时主要集中在对数据的分组聚合。 提升分组聚合能力依赖排序键和聚簇键。 排序键:数据按照排序键顺序存储。 聚簇键:是排序键的前缀子集,数据按照聚簇键聚簇在一起。 聚合增强常见的使用场景请参见表1。 表1 聚合增强的使用场景 场景 描述 相关文档 低基字段聚合 表示对具有较少不同值的列进行聚合,如对一个存储类别的列进行聚合。 低基字段分组聚合 高基字段聚合 表示对具有较多不同值的列进行聚合,如对一个存储时间的列进行按天的时间聚合。 高基字段直方图聚合 低基字段和高基字段混合聚合 表示对以上两种类型的聚合混合在一起,如先对低基字段做分组聚合,然后再对高基字段做直方图聚合。 低基字段分组聚合混合高基字段直方图聚合
  • 性能测试对比 测试环境 数据集: esrally nyc_taxis数据集 集群规格: 4U16G 100GB高IO * 3节点 测试步骤 在集群中创建索引模板,指定排序键和关闭聚合增强。 PUT /_template/nyc_taxis { "template": "nyc_taxis*", "settings": { "index.search.turbo.enabled": false, "index.sort.field": "dropoff_datetime", "number_of_shards": 3, "number_of_replicas": 0 } } 使用esrally执行nyc_taxis数据集的测试,得到关闭聚合增强时的结果。 在同一个集群中创建索引模板,指定排序键和开启聚合增强。 PUT /_template/nyc_taxis { "template": "nyc_taxis*", "settings": { "index.search.turbo.enabled": true, "index.sort.field": "dropoff_datetime", "number_of_shards": 3, "number_of_replicas": 0 } } 使用esrally执行nyc_taxis数据集的测试,得到开启聚合增强时的结果。 测试结果 本次测试仅关注针对“dropoff_datetime”聚合的查询结果,即只关注“autohisto_agg”和“date_histogram_agg”两个任务的结果,以下为该任务的测试结果对比。 Metric Task Unit 关闭聚合增强 开启聚合增强 关闭聚合增强 开启聚合增强 open/close 结论 测试轮次1 测试轮次2 测试轮次3 测试轮次1 测试轮次2 测试轮次3 均值 均值 Min Throughput autohisto_agg ops/s 4.42 4.44 4.43 11.66 11.94 11.96 4.43 11.85 2.68 吞吐量提升2.5倍以上 Mean Throughput autohisto_agg ops/s 4.50 4.46 4.44 11.81 11.99 12.00 4.47 11.93 2.67 Median Throughput autohisto_agg ops/s 4.51 4.46 4.44 11.83 11.98 12.00 4.47 11.94 2.67 Max Throughput autohisto_agg ops/s 4.54 4.48 4.45 11.90 12.07 12.02 4.49 12.00 2.67 100th percentile latency autohisto_agg ms 216.30 - - - 84.56 80.38 216.30 82.47 0.38 时延下降60%以上 100th percentile service time autohisto_agg ms 216.30 - - - 84.56 80.38 216.30 82.47 0.38 error rate autohisto_agg % 0 0 0 0 0 0 0 0 0 - Min Throughput date_histogram_agg ops/s 4.72 4.67 4.65 12.57 12.40 12.59 4.68 12.52 2.68 吞吐量提升2.5倍以上 Mean Throughput date_histogram_agg ops/s 4.73 4.67 4.67 12.61 12.46 12.61 4.69 12.56 2.68 Median Throughput date_histogram_agg ops/s 4.73 4.67 4.67 12.62 12.46 12.60 4.69 12.56 2.68 Max Throughput date_histogram_agg ops/s 4.74 4.67 4.67 12.64 12.49 12.63 4.69 12.59 2.68 50th percentile latency date_histogram_agg ms 202.61 218.09 213.43 77.64 76.02 82.63 211.38 78.77 0.37 时延下降60%以上 100th percentile latency date_histogram_agg ms 207.35 223.88 246.63 77.99 - - 225.95 77.99 0.35 50th percentile service time date_histogram_agg ms 202.61 218.09 213.43 77.64 76.02 82.63 211.38 78.77 0.37 100th percentile service time date_histogram_agg ms 207.35 223.88 246.63 77.99 - - 225.95 77.99 0.35 error rate date_histogram_agg % 0 0 0 0 0 0 0 0 0 - 测试结论 在集群配置相同的情况下,开启聚合增强后,聚合性能显著提升,查询吞吐量提升2.5倍以上,查询时延下降60%以上。
共100000条