检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU虚拟化功能仅支持470.57.02、510.47.03、535.54.03版本的GPU驱动。 运行时 仅支持containerd 插件 集群中需要同时安装以下插件: Volcano调度器插件:1.10.5及以上版本 CCE AI套件(NVIDIA GPU)插件:2.0.5及以上版本
--> CRI plugin(在containerd进程中) --> containerd Docker(Kubernetes 1.23及以下版本): kubelet --> dockershim (在kubelet 进程中) --> docker --> containerd Docker(Kubernetes
https://github.com/BVLC/caffe/blob/master/examples/00-classification.ipynb 另存链接中里面小猫图片。 data/ilsvrc12/* https://github.com/BVLC/caffe/tree/master/data/ilsvrc12
PVC资源名称,指定后不允许修改 命名空间 PVC所属命名空间 参数名 取值范围 默认值 是否允许修改 作用范围 namespace 集群中存在的命名空间 无 支持初始化时配置,不支持后续修改 - 命名空间为资源的隔离维度,一旦指定后不允许修改 配置建议: 建议按照业务、部门等归
洞察成本数据会延迟2天显示。 使用成本洞察期间,要保证云原生监控插件运行正常,否则影响成本洞察中命名空间、工作负载、节点池等相关视图的呈现。 接入管理 登录CCE控制台,单击左侧导航栏中的“云原生成本治理”。 图1 云原生成本治理 单击“接入管理”,查看集群接入情况,并对剩余未接入集群进行接入。
支持自动创建LTS日志流 支持配置Buffer_Chunk_Size、Buffer_Max_Size、Mem_Buf_Limit参数 上报到AOM的事件中添加pod_ip字段 1.6.0 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 支持v1.30集群 安
使用云容器引擎CCE时,CCE控制台支持选择集群或节点的计费模式(包年/包月或按需计费),且集群和节点的计费模式支持自由组合(例如包年/包月集群中可添加按需计费节点)。 除集群和节点外,CCE相关的其他云服务资源计费项无法从CCE控制台购买包年/包月资源,通过CCE自动创建时均默认为按
默认情况下,kubectl drain命令会保留某些系统级Pod不被驱逐,例如everest-csi-driver。 使用kubectl连接集群。 查看集群中的节点。 kubectl get node 选择一个节点,查看节点上存在的所有Pod。 kubectl get pod --all-namespaces
not be used.", "code": 403} 问题根因 事件信息表示账号被停用或没有权限,请检查账号状态是否正常。 如账号正常请查看该用户的命名空间权限,您需要拥有该命名空间的开发权限、运维权限或管理员权限之一,或者包含PVC/PV读写操作的自定义权限。详情请参见配置命名空间权限(控制台)。
该漏洞为Linux内核权限校验漏洞,根因为没有针对性的检查设置release_agent文件的进程是否具有正确的权限。在受影响的OS节点上,工作负载使用了root用户运行进程(或者具有CAP_SYS_ADMIN权限),并且未配置seccomp时将受到漏洞影响。 CCE集群受该漏洞影响的范围如下: x86场景EulerOS
在Pod中使用PVC 有了PVC后,在Pod中使用持久化存储就非常方便了,在Pod Template中的Volume直接关联PVC的名称,然后挂载到容器之中即可,如下所示。甚至在StatefulSet中还可以直接声明PVC,详情请参见有状态负载(StatefulSet)。 apiVersion:
object 容器资源(CPU、内存)配额。 表3 custom 参数 是否必选 参数类型 描述 multiAZEnable 否 bool 插件中deployment组件多可用部署是否采用强制模式,默认:false。强制模式下插件Deployment实例强制调度到不同可用区的节点上,如
CCE AI套件(NVIDIA GPU) 开启对分布式云支持 创建CCE Turbo集群时,可在创建集群过程中,开启对分布式云(cloudpond)支持。 开启分布式云支持后,在集群中创建的边缘节点,默认会添加以下污点和K8s标签: 污点:distribution.io/category=IES:NoSchedule
登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中选择“节点管理”,并切换至“节点池”页签。 单击待迁移的节点池名称后的“节点列表”。 在需要迁移的节点的“操作”栏中,单击“更多 > 迁移”,迁移单个节点。 图1 迁移节点到默认节点池 在弹出的“迁移节点”窗口中进行确认。 迁移完成后,节点上用户自定义的资源标签、K8s标签、污点不受影响。
用,否则可能导致日志过多占满所在节点磁盘。 使用Volcano调度工作负载 使用Volcano调度工作负载时,只需要在Pod的spec字段中设置schedulerName参数并指定参数值为volcano,示例如下: 使用yaml创建queue: apiVersion: scheduling
设备的进程,并终止对应的进程。 登录Pod所在节点。 执行以下命令,找到对应挂载路径下的云存储设备,其中<mount-path>为错误信息中显示的挂载路径。 mount | grep <mount-path> 回显示例如下: /dev/sdatest on <mount-path>
nvidia0 | awk '{print $1, $2}' 该命令查找了192.168.0.106节点上所有的Pod,并且查找了annotation中存在nvidia0(代表第0张卡)信息的Pod。最终输出了Pod所在的命名空间和Pod名称。查询结果如下: 代表default命名空间下名为
捷。 监控中心架构 图1 监控中心架构 云原生监控插件将在CCE集群中采集exporter暴露的指标,通过Prometheus RemoteWrite的方式,将数据写入至AOM实例。 监控中心将基于AOM实例中存储的指标,提供多维度数据洞察、仪表盘的功能。 云原生监控插件也提供了
TFJob可在GPU场景下进行,该场景需要集群中包含GPU节点,并安装合适的驱动。 在TFJob中指定GPU资源。 创建tf-gpu.yaml文件,示例如下: 该示例的主要功能是基于Tensorflow的分布式架构,利用卷积神经网络(CNN)中的ResNet50模型对随机生成的图像进行
位的准确性,还显著减少了运维人员的工作负担,从而提升了整体运维效率。 前提条件 已获取资源权限。 集群版本高于v1.17。 集群处于“运行中”状态。 选择Pod进行诊断 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“健康中心”, 单击“Pod”页签 。 在“