检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
源使用状况,进而识别可优化的应用。 成本洞察关键能力 丰富的容器成本覆盖范围:支持成本分析的费用包括CCE集群管理费用、CCE集群关联的ECS和EVS资源费用。 基于计费账单的精准成本计算:使用真实账单进行成本分摊计算,精准统计集群成本。 灵活的成本分摊策略:支持集群、命名空间、
metadata: name: tfjob-simple namespace: kubeflow spec: tfReplicaSpecs: Worker: replicas: 2 restartPolicy: OnFailure template:
entvolumeclaims cce:storage:create √ √ 删除PersistentVolumeClaim DELETE /api/v1/namespaces/{namespace}/cloudpersistentvolumeclaims/{name} cce:storage:delete
务运行。 登录CCE控制台,单击集群名称进入集群控制台。 单击“节点管理”,找到更新驱动的节点池,单击“节点列表”。 单击节点名称跳转到ECS界面。 单击右上角“重启”。 步骤三:验证驱动升级是否成功 节点完成重启后,请稍等几分钟,等待驱动安装。 登录节点,查看节点上的驱动是否更新。
单击“确定”,等待生成订单并完成支付即可。 按需节点转包年/包月 按需计费节点绑定的资源(云硬盘、弹性公网IP)可能不支持同步变更计费模式,详情请参见弹性云服务器ECS按需转包年/包月说明。 按需节点池中的节点转成包年/包月时,请在节点列表中找到目标节点并单击“更多>开启节点缩容保护”,然后再进行转包年/包月操作。
GPU监控指标说明 CCE AI套件(NVIDIA GPU)插件提供GPU监控指标,并集成了DCGM-Exporter组件(要求插件版本2.7.32+),引入更丰富的GPU可观测性场景。本文介绍CCE AI套件(NVIDIA GPU)插件指标的详细信息。 计费说明 GPU指标作为
0.0/16 说明: 如果需要保证节点能正常访问跨节点的Pod,必须添加节点的子网网段。 同理,如果同VPC下的其他ECS节点需要能正常访问Pod IP,必须添加ECS所在子网网段。 表6 扩展控制器配置(仅v1.21及以上版本集群支持) 名称 参数 详情 取值 启用资源配额管理
漏洞影响 集群使用了聚合API,只要kube-apiserver与聚合API server的网络直接连通,攻击者就可以利用这个漏洞向聚合API服务器发送任何API请求; 如果集群开启了匿名用户访问的权限,则匿名用户也利用这个漏洞。不幸的是Kubernetes默认允许匿名访问,即kube-apiserver的启动参数”--
在CCE Turbo集群中配置Pod延时启动参数 应用场景 CCE Turbo集群在某些特定场景下(例如跨VPC、专线互联),会出现对端Pod的路由规则生效慢的情况。在这种情况下,可以利用Pod延时启动的能力进行规避。 您也可以使用企业路由器连接对端VPC来解决该问题,详情请参见集群通过企业路由器连接对端VPC。
ing.coreos.com/v1/servicemonitors。 配置建议: 创建新的 自定义资源时,Kubernetes API 服务器会为您所指定的每个版本生成一个新的 RESTful 资源路径。 自定义资源名称的单数形式 自定义资源名称的单数形式 参数名 取值范围 默认值
最小值:1 最大值:300 缺省值:60 kubernetes.io/elb.member_timeout String 等待后端服务器响应超时时间。请求转发后端服务器后,在等待超时member_timeout时长没有响应,负载均衡将终止等待,并返回 HTTP504错误码。 取值:1-300s,默认为60s。
}, { "name": "nodeCSIscheduling" }, {
-j DROP 如果集群不需要开启API Server不安全端口,可以将--insecure-port=0添加到kubernetes API服务器命令行来禁用端口。 如集群内运行有不受信的容器,需要manifest文件中关闭CAP_NET_RAW能力,可执行如下命令: securityContext:
nt的组件,用于采集指标、日志和应用性能数据。对于在ECS、BMS控制台直接购买的主机,您需手动安装ICAgent。对于集群节点,ICAgent会自动安装,您不用手动安装ICAgent。详情请参见安装ICAgent(华为云主机)。 父主题: 监控中心
监控GPU资源指标 通过Prometheus和Grafana,可以实现对GPU资源指标的观测。本文以实际示例介绍如何通过Prometheus查看集群的GPU显存的使用。 本文将通过一个示例应用演示如何监控GPU资源指标,具体步骤如下: 访问Prometheus (可选)为Prom
后,能够获取宿主机上所有GPU设备的访问权限。 关于漏洞的详细信息,请参见CVE-2021-1056。 如果您的CCE集群中存在GPU(ECS)节点,并使用了CCE推荐的NVIDIA GPU驱动版本(Tesla 396.37),按照目前NVIDIA官方公告判断暂不受影响;如果您自行安装或更新过节点上的NVIDIA
使用容器网络配置为命名空间/工作负载绑定子网及安全组 操作场景 CCE Turbo集群支持以命名空间或工作负载粒度设置容器所在的容器子网及安全组,该功能通过名为NetworkAttachmentDefinition的CRD资源实现。如您想为指定的命名空间或工作负载配置指定的容器子
CCE推荐的GPU驱动版本列表 对于CCE集群,各系统推荐使用驱动版本如下表,若使用非CCE推荐驱动版本,需要您自行验证机型、系统及驱动版本间的配套兼容性。您可以根据您的应用所使用的CUDA Toolkit版本,对照CUDA Toolkit与NVIDIA驱动的版本兼容性列表,选择合适的NVIDIA驱动版本。
网络概述 关于集群的网络,可以从如下两个角度进行了解: 集群网络是什么样的:集群由多个节点构成,集群中又运行着Pod(容器),每个Pod都需要访问,节点与节点、节点与Pod、Pod与Pod都需要访问。那集群中包含有哪些网络,各自的用处是什么,具体请参见集群网络构成。 集群中的Po
OBS的策略的详细配置方法请参见配置对象策略和桶策略参数说明。 在CCE创建节点池时配置安装前执行脚本和安装后执行脚本。 在创建节点池的云服务器高级配置中填写如下命令。 如下命令是先使用curl命令从OBS中下载pre_install.sh和post_install.sh到/tmp目录,然后执行pre_install