检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE AI套件(NVIDIA GPU)插件使用DCGM-Exporter监控GPU指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理 GPU监控指标说明 父主题: 调度
如账号正常请查看该用户的命名空间权限,您需要拥有该命名空间的开发权限、运维权限或管理员权限之一,或者包含PVC/PV读写操作的自定义权限。详情请参见配置命名空间权限(控制台)。 父主题: 存储管理
CVE-2020-15257是containerd官方发布的一处Docker容器逃逸漏洞。containerd是一个支持Docker和常见Kubernetes配置的容器运行时管理组件,它处理与容器化有关的抽象,并提供API以管理容器的生命周期。在特定的条件下,可以通过访问containerd-shim
Kubernetes事件涵盖了集群的运行状态和各类资源的调度情况,对运维人员日常观察资源的变更以及定位问题均有帮助。为了实现这一目标,您需要为集群安装log-agent插件,该插件可以采集Kubernetes事件,并在“监控中心 > 事件”页面进行展示。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。
imagePullSecrets: - name: default-secret Readiness Probe高级配置 与Liveness Probe相同,Readiness Probe也有同样的高级配置选项,上面nginx Pod的describe命令回显有中有如下行。 Readiness: exec
0,可以用如下命令查看安装包版本: rpm -qa |grep openssh 若openssh版本小于openssh-8.8p1-2.r34,且开放了SSH端口(默认为22),则受该漏洞影响。 如果集群node节点OS是Ubuntu 22.04,可以用如下命令查看安装包版本: dpkg
P技术外,还支持Router Advertisement技术。路由器会定期向节点通告网络状态,包括路由记录。客户端会通过NDP进行自身网络配置。本文介绍该漏洞的影响。 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 输入验证错误 CVE-2020-13401 中
但是在容器内进行解析却提示bad address无法解析域名返回地址,如下图: 登录CCE控制台查看该集群的插件安装情况。 如果已安装插件列表中没有coredns插件,可能是用户卸载了该插件等原因导致。 安装coredns插件,并添加相应的域名及对应的DNS服务地址,即可进行域名解析。 父主题: 域名DNS
8版本ASM网格,若要升级至v1.25版本集群时,请先升级ASM网格至1.15版本后再进行v1.25版本集群升级。 若您没有安装ASM网格服务,请检查集群中是否安装了开源的istio服务。如果安装了istio服务,请您自行确定当前istio版本是否与升级后集群版本兼容。如果兼容则可选择跳过后重新检查
当工作负载挂载的云硬盘存储卷空间不足时,您可以通过云硬盘存储卷扩容的方式解决。本文介绍如何通过控制台进行云硬盘存储卷扩容。 前提条件 您已经创建好一个集群,并且在该集群中安装CCE容器存储(Everest)。 按需计费的云硬盘存储卷 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏选择“存储”,在右侧选择
installing:安装中,表示插件正在安装中。 installFailed:安装失败,表示插件安装失败,需要卸载后重新安装。 upgrading:升级中,表示插件正在更新中。 upgradeFailed:升级失败,表示插件升级失败,可重试升级或卸载后重新安装。 deleting:删除中,表示插件正在删除中。
源分配不足的情况,请参考以下步骤调整分配给Velero和Restic的CPU和内存大小。 安装Velero前: 您可在安装Velero时指定Velero和Restic使用的资源大小。 安装参数示例如下: velero install \ --velero-pod-cpu-request
# 插件版本为2.0.0及以上时,驱动安装路径更改,需执行以下命令: cd /usr/local/nvidia/bin && ./nvidia-smi 登录CCE控制台,单击集群名称进入集群,在左侧选择“配置中心”。 切换至“异构资源配置”页签,在“节点池自定义驱动”下方选择
-n "待编码内容" | base64 排查项八:容器启动命令配置有误导致 错误信息如下图所示: 解决方案: 请在工作负载详情页中,切换至“容器管理”页签,核查容器的“生命周期 > 启动命令”配置信息,确保启动命令配置正确。 排查项九:JAVA探针的版本选择latest导致 K8s事件为Created
如何获取TLS密钥证书? 场景 当您的Ingress需要使用HTTPS协议时,创建Ingress时必须配置IngressTLS或kubernetes.io/tls类型的密钥。 以创建IngressTLS密钥证书为例。如图1: 图1 创建密钥 密钥数据中上传的证书文件和私钥文件必须是配套的,不然会出现无效的情况。
调度 问题现象 如果节点存在Memory/Disk/PID Pressure的情况,节点会被添加系统污点。此时修改节点池kubelet组件配置参数或者重启节点kubelet后,该污点会被临时删除,可能会导致由于节点资源压力而触发驱逐的节点重新加入调度器计算流程中,Pod重新调度到
应用容器化时,一般需要准备开机运行的脚本,写作脚本的方式和写一般shell脚本相同。该脚本的主要目的包括: 启动应用所依赖的软件。 将需要修改的配置设置为环境变量。 开机运行脚本与应用实际需求直接相关,每个应用所写的开机脚本会有所区别。请根据实际业务需求来写该脚本。 操作步骤 以root用户登录docker所在的机器。
、view四种ClusterRole角色的权限,这四种权限是针对命名空间中所有资源进行配置,无法对命名空间中不同类别资源(如Pod、Deployment、Service等)的增删改查权限进行配置。 解决方案 Kubernetes提供一套RBAC授权机制,可以非常方便地实现命名空间内容资源的权限控制。
设置指定节点调度(nodeSelector) 在Kubernetes中,选择某个节点调度最简单的方式是在工作负载中配置nodeSelector字段,您可以通过nodeSelector字段设置希望调度的目标节点标签。Kubernetes只会将Pod调度到拥有指定标签的节点上。 前提条件
进入/usr/local/nvidia/bin目录,执行nvidia-smi -q命令。 若nvidia-smi命令不存在或执行失败,有可能是驱动安装未就绪导致,可以重新安装GPU驱动后,再重试。 观察执行结果中的ECC ERROR(发生ECC故障的记录)。 Correctable Error:不会影响业务,不会触发GPU隔离。