检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
txt 然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。 相关链接 工作负载异常:GPU节点部署服务报错 父主题: 节点运行
Running 0 12m 可以看到kube-system有很多Pod,其中coredns是用于做服务发现、everest-csi是用于对接存储服务、icagent是用于对接监控系统。 这些通用的、必须的应用放在kube-system这个命名空间中,能够做到与其他
为集群的API服务提供者,控制面API Server的异常可能会导致整个集群无法访问,同时也会影响依赖API Server的工作负载的正常运行,QPS和请求错误率可以帮助您快速识别和修复问题。 图2 健康概况 资源消耗Top统计 在资源消耗Top统计中,CCE服务会将CPU使用率
URL中的参数说明 参数 描述 {clusterid} 集群ID,创建集群后,调用获取指定项目下的集群接口获取。 Endpoint Web服务入口点的URL,可以从终端节点(Endpoint)中获取。 uri 资源路径,也即API访问路径。从具体接口的URI模块获取,例如“获取用
无 无 允许 - 标签是资源对象的一种附加标识,可以通过标签进行过滤查询 配置建议: 用户按需将一些查询和管理维度(如配置项所属业务领域、微服务等)抽象为标签,方便对配置项进行过滤查询 父主题: 配置项
作负载,Prometheus会通过采集配置对这些指标进行采集。详情请参见使用云原生监控插件监控自定义指标。 对接AOM监控服务 AOM实例是应用运维管理服务(AOM)推出的Prometheus监控功能。启用后指标会上报到您选择的AOM实例,其中容器基础指标免费,其他指标按需收费。
efs-deployment-example.yaml 创建完成后,在CCE界面“存储管理 > 极速文件存储卷”中单击PVC名称,在PVC详情页面可查看极速文件存储服务和PVC的绑定关系。 父主题: 极速文件存储卷
将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据 工作负载弹性伸缩实践 CCE容器实例弹性伸缩到CCI服务 使用HPA+CA实现工作负载和节点联动弹性伸缩 基于Prometheus指标的弹性伸缩实践 基于ELB监控指标的弹性伸缩实践 通过Nginx
/usr/local/bin/cce-agent-arm chown root:root /usr/local/bin/cce-agent-arm 重启cce-agent服务。 systemctl restart cce-agent 若您对上述执行过程有疑问,请联系技术支持人员。 父主题: 升级前检查异常问题排查
配置允许访问带认证的端点,会导致您需认证的端点可在集群内通过访问prometheus-lightweight服务的方式直接访问,因此请勿将prometheus-lightweight服务端口暴露至集群外部。 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“配置与密钥”
离模式的工作负载。 v1.27及以下的集群中,使用GPU虚拟化后,不支持使用Autoscaler插件自动扩缩容GPU虚拟化节点。 XGPU服务的隔离功能不支持以UVM的方式申请显存,即调用CUDA API cudaMallocManaged(),更多信息,请参见NVIDIA官方文
源使用状况,进而识别可优化的应用。 成本洞察关键能力 丰富的容器成本覆盖范围:支持成本分析的费用包括CCE集群管理费用、CCE集群关联的ECS和EVS资源费用。 基于计费账单的精准成本计算:使用真实账单进行成本分摊计算,精准统计集群成本。 灵活的成本分摊策略:支持集群、命名空间、
务运行。 登录CCE控制台,单击集群名称进入集群控制台。 单击“节点管理”,找到更新驱动的节点池,单击“节点列表”。 单击节点名称跳转到ECS界面。 单击右上角“重启”。 步骤三:验证驱动升级是否成功 节点完成重启后,请稍等几分钟,等待驱动安装。 登录节点,查看节点上的驱动是否更新。
且当挂载的Pod被删除时这些Token将自动失效。该方式通过BoundServiceAccountTokenVolume特性实现,能够提升服务账号(ServiceAccount)Token的安全性,Kubernetes 1.21及以上版本的集群中会默认开启。 为了帮助用户平滑过渡
t-present-and-future/。 BoundServiceAccountTokenVolume特性进入Beta,该特性能够提升服务账号(ServiceAccount)Token的安全性,改变了Pod挂载Token的方式,Kubernetes 1.21及以上版本的集群中会默认开启。
Ingress Controller纳管。 检查项二解决方案 重新创建DefaultBackend Service。 如果安装插件时,在“默认404服务”配置项中指定了自定义的DefaultBackend Service,请您自行重新创建相同的Service。 如果安装插件时使用默认的DefaultBackend
模块提供了基本的监控功能,通过在nginx.conf的配置可以提供一个对外访问Nginx监控数据的接口。 登录一台可连接公网的Linux虚拟机,且要求可执行Docker命令。 创建一个nginx.conf文件,如下所示,在http下添加server配置即可让nginx提供对外访问的监控数据的接口。
要注意Pod的副本数不要超过节点数量,否则会导致一个节点上调度了多个Pod,Pod启动时端口冲突无法创建。例如上面例子中的nginx,如果服务数为2,并部署在只有1个节点的集群上,就会有一个Pod无法创建,查询Pod日志会发现是由于端口占用导致nginx无法启动。 请避免在同一个
"v1.25", "driver_init_image_version" : "2.1.16", "ecsEndpoint" : "******", "euleros_version" : "2.2.5", "e
模块提供了基本的监控功能,通过在nginx.conf的配置可以提供一个对外访问Nginx监控数据的接口。 登录一台可连接公网的Linux虚拟机,且要求可执行Docker命令。 创建一个nginx.conf文件,如下所示,在http下添加server配置即可让nginx提供对外访问的监控数据的接口。