检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
available<1.5Gi时,kubelet不会立即执行Pod驱逐,而会等待eviction-soft-grace-period时间,假如该时间过后,依然还是达到了软驱逐阈值,则触发一次Pod驱逐。 eviction-soft-grace-period:当达到软驱逐阈值时,允许Pod优雅终止的时
com", "driver_init_image_version": "2.4.4", "ecsEndpoint": "https://ecs.***.com", "everest_image_version": "2.4.4",
节点重启后容器网络不通 v1.7.3-r4 主要特性: 集群性能优化 裸金属场景支持对接ELB v1.7.3-r3 主要特性: 容器存储支持KVM虚拟机挂载 v1.7.3-r2 主要特性: 容器存储支持SFS文件存储 工作负载支持自定义应用日志 开放工作负载优雅缩容 问题修复: 修复容器存储AK/SK会过期的问题
节点重启后容器网络不通 v1.7.3-r4 主要特性: 集群性能优化 裸金属场景支持对接ELB v1.7.3-r3 主要特性: 容器存储支持KVM虚拟机挂载 v1.7.3-r2 主要特性: 容器存储支持SFS文件存储 工作负载支持自定义应用日志 开放工作负载优雅缩容 问题修复: 修复容器存储AK/SK会过期的问题
源使用状况,进而识别可优化的应用。 成本洞察关键能力 丰富的容器成本覆盖范围:支持成本分析的费用包括CCE集群管理费用、CCE集群关联的ECS和EVS资源费用。 基于计费账单的精准成本计算:使用真实账单进行成本分摊计算,精准统计集群成本。 灵活的成本分摊策略:支持集群、命名空间、
metadata: name: tfjob-simple namespace: kubeflow spec: tfReplicaSpecs: Worker: replicas: 2 restartPolicy: OnFailure template:
务运行。 登录CCE控制台,单击集群名称进入集群控制台。 单击“节点管理”,找到更新驱动的节点池,单击“节点列表”。 单击节点名称跳转到ECS界面。 单击右上角“重启”。 步骤三:验证驱动升级是否成功 节点完成重启后,请稍等几分钟,等待驱动安装。 登录节点,查看节点上的驱动是否更新。
cce-gpu-topology-predicate true/false true 允许 CCE Standard/CCE Turbo 一台AI服务器上共有8块NPU 1980芯片,4P * 2方式。每4块NPU 1980芯片之间通过HCCS互联,4块之间通过PCIe swith互联。 HCCS互联的4块NPU
eulerosv2r9.x86 64 2024年9月 更新系统内核,修复CVE-2024-1086安全漏洞。 修复内核缺陷导致低概率出现虚拟机卡住的问题。 4.18.0-147.5.1.6.h1152.eulerosv2r9.x86_64 2024年4月 更新系统内核,修复安全漏洞。
n,您也可以选择手动管理ServiceAccount的Secret。尽管存在手动创建永久ServiceAccount Token的机制,但还是推荐使用TokenRequest的方式使用短期的Token,以提高安全性。 1.25以前版本的集群中,ServiceAccount会自动创建对应的Secret。1
"*****", "driver_init_image_version" : "2.1.30", "ecsEndpoint" : "*****", "everest_image_version" : "2.1.30",
实现高效、灵活和经济的资源管理。详情请参见购买集群。 集群升级:您可以升级Kubernetes版本以使用最新的功能,同时提升系统的稳定性和性能。详情请参见升级集群。 节点/节点池管理 异构资源管理:全面适配华为云各类计算实例,支持虚拟机和裸机混合部署、高性价比鲲鹏实例、GPU和昇
如下: 若您自建的Prometheus同样部署在K8s集群中,可进入Prometheus容器中查看。若您自建的Prometheus部署在虚拟机上,则可跳过本步骤。 kubectl exec -ti -n monitoring prometheus-server-0 -- sh 命令中变量可根据实际情况进行替换:
Ocean插件,详情请参见在Docker中下载并运行Jenkins。 准备工作 在创建容器工作负载前,您需要购买一个可用集群(集群至少包含1个4核8G的节点,避免资源不足),详情请参照购买CCE集群创建。 本实践需要使用Docker in Docker场景,即在容器中运行Docker命令,节点需要选择Docker容器引擎。
资源解冻时:资源将被解除限制。解冻后,集群将会处于“运行中”状态。例如,冻结前处于休眠状态的集群,解冻后也会处于“运行中”状态。 集群为什么被释放 客户购买产品后,如果没有及时的进行续费或充值,将进入宽限期。如宽限期满仍未续费或充值,将进入保留期。在保留期内资源将停止服务。保留期满仍未续费或充
ingress.kubernetes.io/proxy-body-size: 8m HTTPS双向认证 Nginx Ingress支持配置服务器与客户端之间的双向HTTPS认证来保证连接的安全性。 请参见通过kubectl连接集群,使用kubectl连接集群。 执行以下命令,创建自签名的CA证书。
无法进行任何操作。 集群中未安装用户自建的Prometheus或Prometheus(停止维护)插件。 开通监控中心 购买集群时开通 登录云容器引擎控制台,购买集群。 在“插件选择”页面,勾选云原生监控插件。 在“插件配置”页面,选择云原生监控插件需要对接的AOM实例。如Acce
策略触发时,工作负载实例将在此范围内伸缩。 须知: 在CCE Turbo集群中,如果使用独享型ELB对接到工作负载,则最大实例数不能超过ELB的后端服务器组配额(默认为500),否则将会导致多余的实例无法添加到ELB后端。 冷却时间 请输入缩容和扩容的冷却时间,单位为分钟,缩容扩容冷却时间不能小于1分钟。
存储容量,单位Gi,必须和已有pv的storage大小保持一致。 volumeName PV的名称。 极速文件存储所在VPC,子网必须与工作负载规划部署的ECS虚拟机的VPC保持一致,安全组开放入方向端口(111、445、2049、2051、20048)。 创建PV。 kubectl create -f
后,能够获取宿主机上所有GPU设备的访问权限。 关于漏洞的详细信息,请参见CVE-2021-1056。 如果您的CCE集群中存在GPU(ECS)节点,并使用了CCE推荐的NVIDIA GPU驱动版本(Tesla 396.37),按照目前NVIDIA官方公告判断暂不受影响;如果您自行安装或更新过节点上的NVIDIA