检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
仪表盘 使用仪表盘 集群视图 APIServer视图 Pod视图 主机视图 Node视图 节点池视图 GPU视图 XGPU视图 CoreDNS视图 PVC视图 Kubelet视图 Prometheus Server视图 Prometheus Agent视图 父主题: 监控中心
查询AddonTemplates列表 功能介绍 插件模板查询接口,查询插件信息。 调用方法 请参见如何调用API。 URI GET /api/v3/addontemplates 表1 Query参数 参数 是否必选 参数类型 描述 addon_template_name 否 String
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
添加标签:单击“添加”,填写需要增加标签的“键”和“值”,单击“确定”。 例如,填写的键为“project”,值为“cicd”,就可以从逻辑概念表示该命名空间是用来部署CICD环境使用。 删除标签:单击需要删除标签后的“删除”,并单击“确定”。 图3 添加或删除命名空间标签 标签修改成
rage_shards Gauge 当前用于并行发送到远程存储的分片数 prometheus_remote_storage_shards_max Gauge 可用于并行发送到远程存储的分片数的最大值 prometheus_remote_storage_shards_min Gauge
使用仪表盘 仪表盘集合了不同视角、不同组件的高频监控指标。将不同的指标以图表的形式直观、综合性地汇集在同一个屏幕上,帮助您实时全面地掌握集群整体运行状况。 仪表盘提供了丰富的视图监控指标呈现,包括集群视图、APIServer视图、Pod视图、主机视图、Node视图等等。 前提条件
向。除了默认路由表,您还可以创建自定义路由表,并关联至子网,则该子网的出方向流量由自定义路由表控制。 如果路由表的下拉列表中只有默认路由表,则选择默认路由表即可。 如果路由表的下拉列表中同时存在默认路由表和其他自定义路由表,则选择对等连接连通的子网所关联的路由表。 rtb-vpc-demo1(默认路由表)
kustomize build example -o example.yaml 配置Kubeflow所需存储资源。 katib-mysql mysql-pv-claim minio-pv-claim authservice-pvc 由于Kubeflow在创建时需要配置一些存储资源
查询API版本信息列表 功能介绍 该API用于查询CCE服务当前支持的API版本信息列表。 调用方法 请参见如何调用API。 URI GET / 请求参数 无 响应参数 状态码: 200 表1 响应Body参数 参数 参数类型 描述 versions Array of APIVersionDetail
CCE支持对集群资源进行自定义选择,以满足您的多种业务需求。表1中列举了集群的主要性能参数,并给出了本示例的规划值,您可根据业务的实际需求大小进行设置,建议与原集群性能配置保持相对一致。 集群创建成功后,表1中带“*”号的资源参数将不可更改,请谨慎选择。 表1 CCE集群规划 资源 主要性能参数 参数说明
从节点池视角呈现节点池资源的占用和分配情况,帮助您详细了解节点池的负载状态。 指标说明 节点池视图暴露的指标如下: 图1 节点池资源指标 表1 视图说明 图表名称 单位 说明 节点池CPU分配率 百分比 节点池里的所有节点的Pod CPU Request总量占所有节点CPU总量的比例 节点池CPU使用率
最大可支持2000节点 受限于VPC路由表能力,适合中小规模组网,建议规模为1000节点及以下。 VPC网络模式下,集群每添加一个节点,会在VPC的路由表中添加一条路由(包括默认路由表和自定义路由表),因此集群本身规模受VPC路由表上限限制,创建前请提前评估集群规模。路由表配额请参见使用限制。 最大可支持2000节点
获取集群备份任务详情列表 功能介绍 获取集群备份任务详情列表 调用方法 请参见如何调用API。 URI GET /api/v3.1/projects/{project_id}/clusters/{cluster_id}/operation/snapshot/tasks 表1 路径参数 参数
suppressed字样,则也有可能是ARP表超限导致。 解决办法 节点最大可允许的非永久表项数量由内核参数net.ipv4.neigh.default.gc_thresh3确定,此内核参数非namespace隔离,节点和节点上运行容器会共用ARP表项大小。容器场景下,该参数推荐设置为163790。
停止维护,无法原地升级的需要迁移的CCE集群 在迁移前,需对原集群的所有资源进行分析再决定迁移方案,可迁移的资源包括集群内资源和集群外资源,如下表所示。 表1 可迁移资源列表 资源类别 可迁移对象 备注 集群内资源 集群中的所有对象,Pod、Job、Service、Deployment、ConfigMap等。
DIA驱动版本。 GPU驱动支持列表 当前GPU驱动支持列表仅针对1.2.28及以上版本的GPU插件。 如果您需要安装最新版本的GPU驱动,请将您的GPU插件升级到最新版本。 表1 GPU驱动支持列表 GPU型号 支持集群类型 机型规格 操作系统 Huawei Cloud EulerOS
获取集群升级任务详情列表 功能介绍 获取集群升级任务详情列表 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/clusters/{cluster_id}/operation/upgrade/tasks 表1 路径参数 参数
imagePullSecrets: - name: default-secret 以上yaml字段解释如表1。 表1 deployment字段详解 字段名称 字段说明 必选/可选 apiVersion 表示API的版本号。 说明: 请根据集群版本输入: 1.17及以上版本的集群中无状态应用apiVersion格式为apps/v1
GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。 指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量 集群-算力使用率
Turbo实例的使用量和容量一致)。 挂载到普通容器的PVC支持采集使用量及inodes数据,挂载至安全容器PVC不支持。 指标说明 PVC视图暴露的指标如下: 表1 PVC图表说明 指标名称 单位 说明 PV状态 / PV当前所处的状态,包含Available、Bound、Failed、Pending、Released。