检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
metadata: name: tfjob-simple namespace: kubeflow spec: tfReplicaSpecs: Worker: replicas: 2 restartPolicy: OnFailure template:
务运行。 登录CCE控制台,单击集群名称进入集群控制台。 单击“节点管理”,找到更新驱动的节点池,单击“节点列表”。 单击节点名称跳转到ECS界面。 单击右上角“重启”。 步骤三:验证驱动升级是否成功 节点完成重启后,请稍等几分钟,等待驱动安装。 登录节点,查看节点上的驱动是否更新。
cce-gpu-topology-predicate true/false true 允许 CCE Standard/CCE Turbo 一台AI服务器上共有8块NPU 1980芯片,4P * 2方式。每4块NPU 1980芯片之间通过HCCS互联,4块之间通过PCIe swith互联。 HCCS互联的4块NPU
准备工作 创建一个有1个节点的集群,节点规格为2U4G及以上,并在创建节点时为节点添加弹性公网IP,以便从外部访问。如创建节点时未绑定弹性公网IP,您也可以前往ECS控制台为该节点进行手动绑定。 给集群安装插件。 autoscaler:节点伸缩插件。 metrics-server:
通过Kubectl命令行创建Nginx Ingress 本节以Nginx工作负载为例,说明kubectl命令添加Nginx Ingress的方法。 关于CCE v1.23集群中Ingress API版本升级的说明 CCE从v1.23版本集群开始,将Ingress切换到networking
请尽快整改证书,以避免影响后续升级。 v1.17.17版本及以后的集群CCE自动给用户创建了PSP规则,限制了不安全配置的Pod的创建,如securityContext配置了sysctl的net.core.somaxconn的Pod。 升级后请参考资料按需开放非安全系统配置,具
如下: 若您自建的Prometheus同样部署在K8s集群中,可进入Prometheus容器中查看。若您自建的Prometheus部署在虚拟机上,则可跳过本步骤。 kubectl exec -ti -n monitoring prometheus-server-0 sh 命令中变量可根据实际情况进行替换:
其他属性:分区包含资源类别,即中心云、智能边缘小站。该属性的配置方便后续负载的调度。 约束与限制 节点:分布式集群当前仅支持普通x86虚拟机。暂不支持节点迁移功能。 节点池:节点池随机调度功能仅限于分区内。 存储:当前仅支持在边缘区域创建云硬盘(EVS),其他种类存储方式不推荐使用。
ELB Ingress和Nginx Ingress对比 CCE服务的集群支持使用Nginx Ingress、ELB Ingress对接7层的Loadbalancer。Nginx Ingress为精选开源插件,我们会定期同步社区的特性和Bugfix,ELB Ingress为全托管模
为Nginx Ingress配置应用流量镜像 Nginx Ingress支持在不同集群内进行流量镜像(Traffic Mirror),将访问请求复制一份路由到镜像后端,但会忽略镜像后端的返回值,因此不会对原有请求造成影响,可用于系统的仿真测试和问题定位。本文介绍如何使用Nginx
集群视角的成本可视化最佳实践 应用现状 当前使用CCE时,默认是以CCE整个云服务的粒度体现计费信息,没有划分不同集群使用的成本。 解决方案 通过给集群使用的资源打上CCE-Cluster-ID标签,在成本中心通过标签过滤汇聚整个集群所使用资源的成本,以集群为单位进行成本分析,降本增效。
入门指引 本文旨在帮助您了解云容器引擎(Cloud Container Engine,简称CCE)的基本使用流程以及相关的常见问题,帮助您快速上手容器服务。 您可以通过控制台、Kubectl命令行、API参考使用云容器引擎服务。 使用步骤 完整的云容器引擎使用流程包含以下步骤: 图1
}, { "name": "nodeCSIscheduling" }, {
如何避免非GPU/NPU负载调度到GPU/NPU节点? 问题现象 当集群中存在GPU/NPU节点和普通节点混合使用的场景时,普通工作负载也可以调度到GPU/NPU节点上,可能出现GPU/NPU资源未充分利用的情况。 问题原因 由于GPU/NPU节点同样提供CPU、内存资源,在一般
模块提供了基本的监控功能,通过在nginx.conf的配置可以提供一个对外访问Nginx监控数据的接口。 登录一台可连接公网的Linux虚拟机,且要求可执行Docker命令。 创建一个nginx.conf文件,如下所示,在http下添加server配置即可让nginx提供对外访问的监控数据的接口。
节点上。 强制多可用区部署:通过设置Pod间反亲和(podAntiAffinity)实现,强制将工作负载的Pod调度到不同可用区的节点上,如集群下节点支持的可用区数量小于实例数,工作负载的Pod无法全部运行。 自定义亲和策略:根据需求自定义设置亲和与反亲和规则,详情请参见设置工作
如何让多个Pod均匀部署到各个节点上? Kubernetes中kube-scheduler组件负责Pod的调度,对每一个新创建的 Pod 或者是未被调度的 Pod,kube-scheduler 会选择一个最优的节点去运行这个 Pod。kube-scheduler 给一个 Pod
存储容量,单位Gi,必须和已有pv的storage大小保持一致。 volumeName PV的名称。 极速文件存储所在VPC,子网必须与工作负载规划部署的ECS虚拟机的VPC保持一致,安全组开放入方向端口(111、445、2049、2051、20048)。 创建PV。 kubectl create -f
云原生监控插件升级检查异常处理 检查项内容 在集群升级过程中,云原生监控插件从3.9.0之前的版本升级至3.9.0之后的版本升级时,存在兼容性问题,需检查该插件是否开启了grafana的开关。 解决方案 由于云原生监控插件在3.9.0之后的版本,不再聚合grafana的能力,因此
如何修改CCE集群名称? 集群创建完成后,支持修改集群名称。 登录CCE控制台,单击集群名称进入集群。 在集群信息页面,单击集群名称后的。 图1 修改集群名称 输入新的集群名称后,单击“保存”。 集群名称不能与其他集群的名称或原名相同。 集群名称修改后,如果集群相关的周边服务已使