检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
metadata: name: tfjob-simple namespace: kubeflow spec: tfReplicaSpecs: Worker: replicas: 2 restartPolicy: OnFailure template:
务运行。 登录CCE控制台,单击集群名称进入集群控制台。 单击“节点管理”,找到更新驱动的节点池,单击“节点列表”。 单击节点名称跳转到ECS界面。 单击右上角“重启”。 步骤三:验证驱动升级是否成功 节点完成重启后,请稍等几分钟,等待驱动安装。 登录节点,查看节点上的驱动是否更新。
X-Auth-Token 是 String 使用Token调用接口,Token的获取方式请参见获取Token。 其中Drainage.json为当前路径下的本地文件,内容如下: { "apiVersion": "node.cce.io/v1", "kind": "Drainage"
cce-gpu-topology-predicate true/false true 允许 CCE Standard/CCE Turbo 一台AI服务器上共有8块NPU 1980芯片,4P * 2方式。每4块NPU 1980芯片之间通过HCCS互联,4块之间通过PCIe swith互联。 HCCS互联的4块NPU
"*****", "driver_init_image_version" : "2.1.30", "ecsEndpoint" : "*****", "everest_image_version" : "2.1.30",
14及以上版本的插件,详情请参见Volcano调度器。 已安装CCE云原生监控插件(kube-prometheus-stack),并开启“本地数据存储”模式,详情请参见云原生监控插件。 使用kubectl连接集群,具体操作步骤请参见通过kubectl连接集群。 功能介绍 原生Ku
果长时间达到瓶颈,可调整prometheus实例规格。 说明: PVC资源使用率的检查在kube-prometheus-stack插件为“本地数据存储”时执行,该模式下,采集到的指标数据会存放入集群PV中。 prometheus工作负载近24小时内存使用率最大值是否超过80% 是
}, { "name": "nodeCSIscheduling" }, {
Turbo集群:由节点网卡数量决定。 - 限制Pod中的进程数 pod-pids-limit 每个Pod中可使用的PID个数上限。 默认:-1,表示不限制 - 是否使用本地IP作为该节点的ClusterDNS with-local-dns 开启后,会自动在节点的kubelet配置中添加节点默认网卡IP作为首选DNS地址。
nt的组件,用于采集指标、日志和应用性能数据。对于在ECS、BMS控制台直接购买的主机,您需手动安装ICAgent。对于集群节点,ICAgent会自动安装,您不用手动安装ICAgent。详情请参见安装ICAgent(华为云主机)。 父主题: 监控中心
提升与CA联动扩容效率 提升调度稳定性 优化持久卷调度逻辑 优化日志信息 1.10.7 v1.19.16 v1.21 v1.23 v1.25 修复本地持久卷插件未计算预绑定到节点的pod的问题 1.10.5 v1.19.16 v1.21 v1.23 v1.25 volcano agent支持资源超卖。
Turbo集群可以使用普通运行时或安全运行时。具体区别请参见安全运行时与普通运行时。 时区同步:选择是否开启时区同步。开启后容器与节点使用相同时区(时区同步功能依赖容器中挂载的本地磁盘,请勿修改删除),时区同步详细介绍请参见设置时区同步。 容器配置 容器信息 Pod中可以配置多个容器,您可以单击右侧“添加容器”为Pod配置多个容器。
存储容量,单位Gi,必须和已有pv的storage大小保持一致。 volumeName PV的名称。 极速文件存储所在VPC,子网必须与工作负载规划部署的ECS虚拟机的VPC保持一致,安全组开放入方向端口(111、445、2049、2051、20048)。 创建PV。 kubectl create -f
节数这两个指标的开关,默认不开 enable: true healthCheck: #选填,本地节点 Pod 健康检查任务中最近一次健康检查是否健康、健康检查总健康&不健康次数这三个指标开关,默认不开 enable: true
后,能够获取宿主机上所有GPU设备的访问权限。 关于漏洞的详细信息,请参见CVE-2021-1056。 如果您的CCE集群中存在GPU(ECS)节点,并使用了CCE推荐的NVIDIA GPU驱动版本(Tesla 396.37),按照目前NVIDIA官方公告判断暂不受影响;如果您自行安装或更新过节点上的NVIDIA
种,如果您使用的Token方式,此参数为必填,请填写Token的值,获取方式请参见获取token。 其中nginx.json为当前路径下的本地文件,内容如下: { "apiVersion": "apps/v1", "kind": "Deployment",
通过云原生日志采集插件采集容器日志 云原生日志采集插件是基于开源fluent-bit和opentelemetry构建的云原生日志、Kubernetes事件采集插件。CCE 云原生日志采集插件支持基于CRD的日志采集策略,可以根据您配置的策略规则,对集群中的容器标准输出日志、容器文
17 v1.19 v1.21 v1.23 新增beta检查项ScheduledEvent,支持通过metadata接口检测宿主机异常导致虚拟机进行冷热迁移事件。该检查项默认不开启。 0.8.10 1.16.3 v1.17 v1.19 v1.21 v1.23 新增ResolvConf配置文件检查。
}, { "name": "nodeCSIscheduling" }, {
会略微变长同时IP地址的利用率会下降。 暂不支持CCE Turbo集群中BMS节点上的Pod配置固定IP。在BMS节点(使用弹性网卡)跟ECS节点(使用辅助弹性网卡)混合使用的CCE Turbo集群中,需要为Pod设置节点亲和性调度,以保证Pod不会调度到BMS节点,否则将导致固定IP无法保留。