云服务器内容精选

  • 查看Redis实例实时并发连接数 当您需要查看D CS 实例收到的实时连接数时,在控制台缓存管理页面,单击需要查看的实例右侧的“查看监控”,进入 云监控 页面。 图1 查看监控 进入监控页面后,找到“活跃的客户端数量”监控项。您可以单击该监控项的右上角的查看按钮,使用大图模式查看。 在弹出的“活跃的客户端数量”页面,根据需要选择查看的时间段,例如,需要查看10分钟内的连接数,您可以将时间自定义为10分钟。由于监控数据采集的是周期内增加的连接数,您可以通过监控图表,查看这个时间段的连接数的走势,并统计10分钟内的连接总数。 监控指标“活跃的客户端数量”用于统计已连接的客户端数量,包括系统监控、配置同步和业务相关的连接数,不包括来自从节点的连接。 您还可以通过控制台会话管理,查看连接实例的客户端会话信息。
  • 响应示例 状态码: 200 Ok { "metrics" : [ { "metric" : { "namespace" : "abc", "metricName" : "def", "dimensions" : [ { "name" : "ghi", "value" : "lmn" } ] }, "dataPoints" : [ { "timestamp" : "1467892800000", "unit" : "Percent", "statistics" : [ { "statistic" : "maximum", "value" : "23" } ] } ] } ] } 状态码: 400 Bad Request { "error_code" : " BCS .4001108", "error_msg" : "metric names is wrong" } 状态码: 401 Unauthorized { "error_code" : "BCS.4010401", "error_msg" : "Incorrect token or token resolution failed" } 状态码: 403 Forbidden { "error_code" : "BCS.4030403", "error_msg" : "No permissions to request this method" } 状态码: 404 Not Found { "error_code" : "BCS.4040404", "error_msg" : "Not Found:the url is not found" } 状态码: 500 InternalServerError { "error_code" : "BCS.5000500", "error_msg" : "Internal Server Error" }
  • 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。通过调用 IAM 服务获取用户Token接口获取。 表3 请求Body参数 参数 是否必选 参数类型 描述 metric_names 否 Array of strings 指标列表 取值范围 cpuUsage:CPU使用率 diskUsedRate:磁盘使用率 memUsedRate:物理内存使用率 sendBytesRate:上行Bps recvBytesRate:下行Bps cpuCoreLimit:CPU内核总量 cpuCoreUsed:CPU内核占用 totalMem:物理内存总量 freeMem:可用物理内存 diskCapacity:磁盘空间容量 diskAvailableCapacity:可用磁盘空间 默认值:前5项
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 metrics Array of MetricItemResultAPI objects 指标对象列表。 表5 MetricItemResultAPI 参数 参数类型 描述 metric MetricDemision object 指标描述信息 dataPoints Array of MetricDataPoints objects 监控数据信息 表6 MetricDemision 参数 参数类型 描述 namespace String 命名空间 metricName String 指标名称 dimensions Array of Dimension objects 维度列表 表7 Dimension 参数 参数类型 描述 name String 维度名称。 value String 维度取值。 表8 MetricDataPoints 参数 参数类型 描述 timestamp Long 时间戳。 unit String 指标单位。 statistics Array of StatisticValue objects 统计方式。 表9 StatisticValue 参数 参数类型 描述 statistic String 统计方式。 value Double 统计结果。 状态码: 400 表10 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512 状态码: 401 表11 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512 状态码: 403 表12 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512 状态码: 404 表13 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512 状态码: 500 表14 响应Body参数 参数 参数类型 描述 error_code String 错误码 最小长度:8 最大长度:36 error_msg String 错误描述 最小长度:2 最大长度:512
  • 前提条件 服务已接入ECS类型Prometheus监控,具体请参见Prometheus实例 for ECS。 服务已接入云服务类型Prometheus监控,具体请参见Prometheus实例 for 云服务。 服务已接入Remote Write类型Prometheus监控,具体请参见Prometheus实例 for Remote Write。 服务已接入CCE类型Prometheus监控,具体请参见Prometheus实例 for CCE。
  • 注意事项 目前仅default类型、CCE类型、云服务类型、ECS类型、Remote Write类型的Prometheus实例支持数据多写功能。 CCE类型的Prometheus中配置的预汇聚规则指标暂不支持数据多写。 通过数据多写功能转储default Prometheus中的指标时,由于 AOM 直接转储原始指标,有部分转储的指标名称与AOM页面展示的指标名称不一致。例如:icagent上报的原始指标名称为小驼峰格式,AOM页面查询时指标名称转换成蛇形格式(以memUsage指标为例,原始指标名称为memUsage,AOM页面查询时指标名称为aom_container_memory_usage)。
  • 响应示例 状态码: 200 OK { "totalRecord" : 2, "slowLogList" : [ { "users" : "testddm", "database" : "test1", "querySample" : "select id, sleep(3) from test", "logTime" : "2021-04-26T02:40:21", "time" : "12002", "shards" : "test1_0000", "rowsExamined" : "4", "host" : "192.168.16.18" } ] } 状态码: 400 bad request { "externalMessage" : "Parameter error.", "errCode" : "DBS.280001" } 状态码: 500 server error { "externalMessage" : "Server failure.", "errCode" : "DBS.200412" }
  • URI GET /v2/{project_id}/instances/{instance_id}/slowlog?curPage={curPage}&perPage={perPage}&startDate={startDate}&endDate={endDate} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID。 获取方法请参见获取项目ID。 instance_id 是 String DDM实例ID。 表2 Query参数 参数 是否必选 参数类型 描述 curPage 是 String 分页参数:起始值 [大于等于1] 。 perPage 是 String 分页参数:每页多少条。 startDate 是 String 开始时间,UNIX时间戳格式,单位是毫秒。 endDate 是 String 结束时间,UNIX时间戳格式,单位是毫秒。 结束时间与开始时间,间隔不能超过7天。
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 totalRecord Integer DDM慢SQL日志条数。 slowLogList Array of SlowLogList objects DDM慢SQL日志信息列表的集合。 表5 SlowLogList 参数 参数类型 描述 users String 执行慢SQL的DDM账号名称。 database String 慢SQL所属逻辑库的名称。 querySample String 慢SQL执行语法。 logTime String DDM慢SQL开始执行时间,格式为“yyyy-mm-ddThh:mm:ssZ”。 time String 慢SQL的执行时长,精确到毫秒。 shards String 逻辑库物理分片名称。 rowsExamined String 慢SQL影响行数。 host String 客户端IP,该IP地址可能涉及个人数据,建议用户依据实际IP地址的敏感性做查询后脱敏处理。 状态码: 400 表6 响应Body参数 参数 参数类型 描述 errCode String 业务错误码。 externalMessage String 错误信息。 状态码: 500 表7 响应Body参数 参数 参数类型 描述 errCode String 业务错误码。 externalMessage String 错误信息。
  • 业务影响 单节点使用率超过85%:会导致新的分片无法分配。 单节点使用率超过90%:Elasticsearch会尝试将对应节点中的分片迁移到其他磁盘使用率比较低的数据节点中。 单节点使用率超过95%:系统会对Elasticsearch集群中对应节点里每个索引强制设置 read_only_allow_delete 属性,此时该节点上的所有索引将无法写入数据,只能读取和删除对应索引。 单节点使用率过高,可通过扩容操作动态调整集群节点的数量和容量。新扩容的节点不会立即分配索引,可打开cerebro看下节点索引分配情况,做进一步观察,也可以修改indices.recovery.max_bytes_per_sec和cluster.routing.allocation.cluster_concurrent_rebalance两个参数值增加索引分配速度。
  • 其他操作 自定义百分百数值。 您可以自行指定百分百数值: GET /search/stats/percentile { "percents": [1, 50, 90] } 重置latest统计值。 您可以执行以下命令重置latest统计值: POST /search/stats/reset 返回样例: { "nodes" : { "css-c9c8-ess-esn-1-1" : "ok" } }
  • 获取监控信息 登录 云搜索服务 管理控制台。 在“集群管理”页面,选择需要启用索引监控的集群,单击操作列“Kibana”,登录Kibana界面。 在左侧导航栏,选择“Dev Tools”,执行以下命令获取当前集群的P99时延: GET /search/stats/percentile 返回样例如下: { "overall" : { "1.0" : 2.0, "5.0" : 2.0, "25.0" : 6.5, "50.0" : 19.5, "75.0" : 111.0, "95.0" : 169.0, "99.0" : 169.0, "max" : 169.0, "min" : 2.0 }, "last_one_day" : { "1.0" : 2.0, "5.0" : 2.0, "25.0" : 6.5, "50.0" : 19.5, "75.0" : 111.0, "95.0" : 169.0, "99.0" : 169.0, "max" : 169.0, "min" : 2.0 }, "latest" : { "1.0" : 26.0, "5.0" : 26.0, "25.0" : 26.0, "50.0" : 26.0, "75.0" : 26.0, "95.0" : 26.0, "99.0" : 26.0, "max" : 26.0, "min" : 26.0 } } 其中“overall”表示集群从启动到当前时间的统计值,“last_one_day”表示最近一天的统计值,“latest”表示从上次重置到当前时间的统计值。 P99时延的计算是近似值,不提供精确值,越靠近两端的统计值越准确,即99%的时延比50%的时延更准确。 如果重启集群,P99时延数据将被清空,P99时延数据将从集群重启成功后重新计算。
  • 推荐配置的监控指标 监控集群的cpu、jvm使用情况,推荐重点配置如下监控指标:平均JVM堆使用率、最大JVM堆使用率、平均CPU使用率、最大CPU利用率。 监控集群的写入、查询延迟和吞吐量情况,推荐重点配置如下监控指标:平均索引延迟、平均索引速率、平均查询延迟、平均查询速率。 监控集群的写入、查询的排队队列和拒绝情况,推荐重点配置如下监控指标:Write队列中总排队任务数、Search队列中总排队任务数、Write队列中总的已拒绝任务数、Search队列中总的已拒绝任务数。
  • 配置监控对象 参考 云监控服务 CES的创建监控面板,创建一个监控面板。如果已有监控面板,可以跳过该步骤。 参考云监控服务 CES 的添加监控视图,添加 CSS 监控视图。 其中,“资源类型”和“维度”参数的填写说明请参见表2,其他参数可以根据CES服务的参数说明自定义。 表2 监控视图的配置说明 参数 参数解释 配置说明 资源类型 添加监控视图的服务名称。 选择 云搜索 服务。 维度 指定监控的维度名称。 CSS支持2个维度,根据实际需要选择维度。 CSS集群:以集群维度监控。 CSS集群 - 云服务节点:以集群中的某个节点维度监控。
  • 背景信息 索引监控提供了丰富的监控指标,用于监控集群索引的运行状况和变化趋势,衡量业务使用情况,同时可以针对可能存在的风险及时处理,保障集群的稳定运行。 索引监控会采集索引的stats信息保存到集群的监控索引中(monitoring-eye-css-[yyyy-mm-dd]),索引默认保存一周。 目前仅7.6.2和7.10.2版本ELasticsearch集群支持索引监控能力。 父主题: 索引监控