检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
imagePullSecrets 无 无 允许 - DNS策略 参数名 取值范围 默认值 是否允许修改 作用范围 dnsPolicy 无 无 允许 - 域名服务器 参数名 取值范围 默认值 是否允许修改 作用范围 dnsConfig.nameservers 无 无 允许 - 搜索域 参数名 取值范围
metadata: name: tfjob-simple namespace: kubeflow spec: tfReplicaSpecs: Worker: replicas: 2 restartPolicy: OnFailure template:
务运行。 登录CCE控制台,单击集群名称进入集群控制台。 单击“节点管理”,找到更新驱动的节点池,单击“节点列表”。 单击节点名称跳转到ECS界面。 单击右上角“重启”。 步骤三:验证驱动升级是否成功 节点完成重启后,请稍等几分钟,等待驱动安装。 登录节点,查看节点上的驱动是否更新。
一个具体的示例演示该过程。 准备工作 创建一个CCE集群,且需要给节点绑定一个EIP,用于安装Argo CD服务时下载镜像。 创建一台ECS服务器,且需要绑定一个EIP,下载并配置kubectl连接集群,具体操作步骤请参见通过kubectl连接集群。 在Git仓库中准备一个应用,本文使用https://gitlab
参数类型 描述 category String 参数解释: 集群类别。 约束限制: 不涉及 取值范围: CCE:CCE集群 CCE集群支持虚拟机与裸金属服务器混合、GPU、NPU等异构节点的混合部署,基于高性能网络模型提供全方位、多场景、安全稳定的容器运行环境。 Turbo: CCE Turbo集群。
Ingress Controller监听到Ingress资源发生变化时,就会根据其中定义的流量访问规则,在ELB侧重新配置监听器以及后端服务器路由。 当用户进行访问时,流量根据ELB中配置的转发策略转发到关联的各个工作负载。 ELB Ingress Controller的工作原理
9系统报此错误属正常现象,也可通过下述解决方案进行处理。 解决方案: 确认报错unknown authority的第三方镜像服务器地址和端口。 从"实例拉取镜像失败"事件信息中能够直接看到报错的第三方镜像服务器地址和端口,如上图中错误信息为: Failed to pull image "bitnami/re
单击“确定”,等待生成订单并完成支付即可。 按需节点转包年/包月 按需计费节点绑定的资源(云硬盘、弹性公网IP)可能不支持同步变更计费模式,详情请参见弹性云服务器ECS按需转包年/包月说明。 按需节点池中的节点转成包年/包月时,请在节点列表中找到目标节点并单击“更多>开启节点缩容保护”,然后再进行转包年/包月操作。
有某些资源特征的pod赋予增强的CPU亲和性和独占性。用户如果直接在ECS控制台对CCE节点变更规格,会由于变更前后CPU信息不匹配,导致节点上的负载无法重新拉起,也无法创建新负载。 登录CCE节点(弹性云服务器)并删除cpu_manager_state文件。 删除命令示例如下:
"*****", "driver_init_image_version" : "2.1.30", "ecsEndpoint" : "*****", "everest_image_version" : "2.1.30",
漏洞影响 集群使用了聚合API,只要kube-apiserver与聚合API server的网络直接连通,攻击者就可以利用这个漏洞向聚合API服务器发送任何API请求; 如果集群开启了匿名用户访问的权限,则匿名用户也利用这个漏洞。不幸的是Kubernetes默认允许匿名访问,即kube-apiserver的启动参数”--
LB或自动创建新的ELB。 健康检查:开启健康检查(不开启则默认为健康检查成功)。 图1 负载均衡配置 前往ELB控制台,查看对应的后端服务器组,健康检查状态正常。 在CCE控制台中查看工作负载状态处于“运行中”。 父主题: 负载均衡(LoadBalancer)
cce-gpu-topology-predicate true/false true 允许 CCE Standard/CCE Turbo 一台AI服务器上共有8块NPU 1980芯片,4P * 2方式。每4块NPU 1980芯片之间通过HCCS互联,4块之间通过PCIe swith互联。 HCCS互联的4块NPU
到数小时不等。 使用说明 标准接口:具备标准Http Restful API接口,用户必须通过编程或第三方工具访问对象存储。 数据共享:服务器、嵌入式设备、IOT设备等所有调用相同路径,均可访问共享的对象存储数据。 公共/私有网络:对象存储数据允许在公网访问,满足互联网应用需求。
维护成本和资源成本,且方便汇聚监控信息。 前提条件 目标集群已创建。 Prometheus与目标集群之间网络保持连通。 已在一台Linux主机中使用二进制文件安装Prometheus,详情请参见Installation。 操作步骤 分别获取目标集群的bearer_token 信息。
在CCE Turbo集群中配置Pod延时启动参数 应用场景 CCE Turbo集群在某些特定场景下(例如跨VPC、专线互联),会出现对端Pod的路由规则生效慢的情况。在这种情况下,可以利用Pod延时启动的能力进行规避。 您也可以使用企业路由器连接对端VPC来解决该问题,详情请参见集群通过企业路由器连接对端VPC。
CCE AI套件(NVIDIA GPU) 插件介绍 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 是 object 插件基础配置参数。
}, { "name": "nodeCSIscheduling" }, {
ing.coreos.com/v1/servicemonitors。 配置建议: 创建新的 自定义资源时,Kubernetes API 服务器会为您所指定的每个版本生成一个新的 RESTful 资源路径。 自定义资源名称的单数形式 自定义资源名称的单数形式 参数名 取值范围 默认值
共享资源的容器。通常这种场景下应用包含一个主容器和几个辅助容器(SideCar Container),如图1所示,例如主容器为一个web服务器,从一个固定目录下对外提供文件服务,而辅助容器周期性的从外部下载文件存到这个固定目录下。 图1 Pod 实际使用中很少直接创建Pod,而是