检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
VG信息会存在于相应的磁盘上: 当多块磁盘组成的VG缺少一部分时,会显示PV丢失。 当VG中仅有的磁盘被拔出时,vgdisplay将无法显示相应VG,通过vgdisplay无法查看到vg-everest-localvolume-persistent或vg-everest-localvolume
基于Cookie的流量切分,适用于灰度发布。与canary-by-header类似,该annotation用于cookie,仅支持“always”和“never”,无法自定义取值。 nginx.ingress.kubernetes.io/canary-weight 基于服务权重的流量切分,适用于蓝绿部署。表示Canary
结合集群规模合理设置,建议按比例折算后每批迁移pod数量不超过300 迁移速率设置过大可能引入集群过载风险,同时每批迁移重调度的pod过多,大量pod无法及时调度,影响整体故障恢复时间 次级节点迁移速率 当一个区域不健康造成节点失效时,每秒钟从此标志所给的节点上删除 Pod 的节点数比例 参数名
使用dcgm-exporter监控GPU指标 应用场景 集群中包含GPU节点时,需要了解GPU应用使用节点GPU资源的情况,例如GPU利用率、显存使用量、GPU运行的温度、GPU的功率等。在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,或者根据GPU指标设置告
其他属性:分区包含资源类别,即中心云、智能边缘小站。该属性的配置方便后续负载的调度。 约束与限制 节点:分布式集群当前仅支持普通x86虚拟机。暂不支持节点迁移功能。 节点池:节点池随机调度功能仅限于分区内。 存储:当前仅支持在边缘区域创建云硬盘(EVS),其他种类存储方式不推荐使用。
如下: 若您自建的Prometheus同样部署在K8s集群中,可进入Prometheus容器中查看。若您自建的Prometheus部署在虚拟机上,则可跳过本步骤。 kubectl exec -ti -n monitoring prometheus-server-0 -- sh 命令中变量可根据实际情况进行替换:
原因。 排查项一:安全组是否被修改 排查项二:集群是否过载 排查项三:集群Secret落盘加密使用的KMS密钥是否有效 如果以上排查思路仍无法解决您的问题,请提交工单寻找客服人员协助您进行定位。 排查项一:安全组是否被修改 登录控制台,选择“服务列表 > 网络 > 虚拟私有云 VPC”,单击左侧导航栏的“访问控制
后脚本。当安装后脚本执行完之后才会将节点状态置为可用状态。如果直接使用reboot命令,可能会导致节点在上报状态之前就被重启,从而造成节点无法在30min内到达运行中状态,触发超时回滚。因此请尽量避免使用reboot指令。 如果确实需要重启节点,可以选择: 在安装后脚本中使用shutdown
后脚本。当安装后脚本执行完之后才会将节点状态置为可用状态。如果直接使用reboot命令,可能会导致节点在上报状态之前就被重启,从而造成节点无法在30min内到达运行中状态,触发超时回滚。因此请尽量避免使用reboot指令。 如果确实需要重启节点,可以选择: 在安装后脚本中使用shutdown
量较少)混合提交并运行,希望小作业可以优先填满集群各节点的资源碎片,将空闲的节点资源优先预留给大作业运行,避免大作业由于节点资源不足长时间无法调度。 开启装箱策略(binpack),使用默认权重值10。插件详情与配置方法请参见装箱调度(Binpack)。 配置建议如下: 优先减少
# 存储ID 这里csi下面的内容就是CCE中特定的字段,在其他地方无法使用。 下面创建这个PV并查看。 $ kubectl create -f pv.yaml persistentvolume/pv-example
调用等场景。 集群名称:集群创建成功后可以单击进行修改。 集群原名:修改集群名称后显示的集群原名,设置其他集群的名称时和该集群的原名同样不可以重复。 集群状态:当前集群的运行状态,详情请参见集群生命周期。 集群类别:显示当前集群为CCE Standard集群或CCE Turbo集群,两者差异请参见集群类型对比。
监控GPU资源指标 通过Prometheus和Grafana,可以实现对GPU资源指标的观测。本文以实际示例介绍如何通过Prometheus查看集群的GPU显存的使用。 本文将通过一个示例应用演示如何监控GPU资源指标,具体步骤如下: 访问Prometheus (可选)为Prom
nt的组件,用于采集指标、日志和应用性能数据。对于在ECS、BMS控制台直接购买的主机,您需手动安装ICAgent。对于集群节点,ICAgent会自动安装,您不用手动安装ICAgent。详情请参见安装ICAgent(华为云主机)。 父主题: 监控中心
多个Ingress使用同一个ELB对外端口的配置说明 在同一个集群中,多个Ingress可以使用同一个监听器(即使用同一个负载均衡器的同一个端口)。如果两个Ingress设置了不同的监听器配置,则实际生效的监听器配置将以最早创建的Ingress(以下简称为“首路由”)配置为准。关
况中还提供了API Server的总QPS和请求错误率指标。作为集群的API服务提供者,控制面API Server的异常可能会导致整个集群无法访问,同时也会影响依赖API Server的工作负载的正常运行,QPS和请求错误率可以帮助您快速识别和修复问题。 图2 健康概况 资源消耗Top统计
这样在custom-namespace下,就创建了一个名为nginx的Pod。 Namespace的隔离说明 Namespace只能做到组织上划分,对运行的对象来说,它不能做到真正的隔离。举例来说,如果两个Namespace下的Pod知道对方的IP,而Kubernetes依赖的底层网络没有提供Namespac
其调度到特定节点,具体操作详情请参见设置节点亲和调度(nodeAffinity)。 节点固有标签 节点创建出来会存在一些固有的标签,并且是无法删除的,这些标签的含义请参见表1。 系统自动添加的节点固有标签不建议手动修改,如果手动修改值与系统值产生冲突,将以系统值为准。 表1 节点固有标签
后,能够获取宿主机上所有GPU设备的访问权限。 关于漏洞的详细信息,请参见CVE-2021-1056。 如果您的CCE集群中存在GPU(ECS)节点,并使用了CCE推荐的NVIDIA GPU驱动版本(Tesla 396.37),按照目前NVIDIA官方公告判断暂不受影响;如果您自行安装或更新过节点上的NVIDIA
Nginx Ingress高级配置示例 为Nginx Ingress配置HTTPS证书 为Nginx Ingress配置重定向规则 为Nginx Ingress配置URL重写规则 为Nginx Ingress配置HTTPS协议的后端服务 为Nginx Ingress配置GRPC协议的后端服务