检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何配置Pod使用GPU节点的加速能力? 问题描述 我已经购买了GPU节点,但运行速度还是很慢,请问如何配置Pod使用GPU节点的加速能力。 解答 方案1: 建议您将集群中GPU节点的不可调度的污点去掉,以便GPU插件驱动能够正常安装,同时您需要安装高版本的GPU驱动。 如果您的集群中有非GP
CCE节点上监听的端口列表 表1 Node节点监听端口 目的端口 协议 端口说明 10248 TCP kubelet健康检查端口 10250 TCP kubelet服务端口,提供节点上工作负载的监控信息和容器的访问通道 10255 TCP kubelet只读端口,提供节点上工作负载的监控信息
在CloudShell中使用kubectl时,kubectl的权限由登录用户的权限决定。 约束与限制 同一用户在使用CloudShell组件连接CCE集群或容器时,限制同时打开的实例上限数量为15个。 使用CloudShell连接集群 CloudShell是一款用于管理与运维云资源的网页版Shell工具,CCE
实际场景调高后再进行访问和上传。 可以考虑把该服务从网格内移除出去,因为这里的Proxy只是转发包,并没有做其他事情,如果是通过Ingress Gateway走进来的话,这个服务的灰度发布功能是不受影响的。 父主题: 存储管理
通过PVC动态创建方式创建的云硬盘名称格式为“pvc-{uid}”,且接口中的MetaData字段包含集群ID信息,您可以通过集群ID筛选出该集群中自动创建的云硬盘,根据需要进行删除。 前往云硬盘控制台。 通过名称“pvc-{uid}”进行过滤,得到所有由CCE自动创建的云硬盘实例。 通过F12进入浏
Pressure情况(心跳)都依赖于eviction manager的检测。心跳上报和eviction manager的检测分别由两个协程并发执行。正常情况下,如果先执行eviction manager的检测,再执行心跳上报,则kubelet可以上报正确的磁盘情况,并不会删除污点。异常情况下,如果先执行心跳上报,再执行eviction
集群网络组件的NetworkPolicy开关检查 检查项内容 检查您集群网络组件的NetworkPolicy开关配置,如果您在集群Master节点上对NetworkPolicy开关进行过手动修改,那么升级过程中该配置会被刷新成默认值。 解决方案 根据诊断分析中的日志排查网络组件c
如何确认已创建的集群是否为多控制节点模式? 登录CCE控制台,进入集群,在集群详情页面右侧查看控制节点数量: 3个节点即为多控制节点模式。 1个节点即为单控制节点模式。 集群一旦创建,便无法更改控制节点数,需要重新创建集群才能调整。 父主题: 集群运行
表NPU卡的第0张卡)信息的Pod。最终输出了Pod所在的命名空间和Pod名称。查询结果如下: 代表default命名空间下名为test-564f996c77-fws6z的Pod使用了192.168.0.138节点上的第0张卡。 在使用其他卡时,Ascend310-0的Ascend310应该修改为对应卡名称。
由于业务场景存在差异,诸如资源数量、QPS、请求时延等维度的监控指标,没有固定的正常与异常的分界线,不影响业务正常运行即属于正常范围。因此,无法定义通用的告警阈值,可以观察业务稳态运行时的指标数据,根据正常波动范围设置合理的告警阈值,或使用单位时间内指标数据的变化量作为告警检测对象。 配置日志采集
Gang调度策略是volcano-scheduler的核心调度算法之一,它满足了调度过程中的“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费。具体算法是,观察Job下的Pod已调度数量是否满足了最小运行数量,当Job的最小运行数量得到满足时,为Job下的所有Pod执行调度动作,否则,不执行。
更新ELB Ingress的HTTPS证书 当您面临ELB Ingress的HTTPS证书即将到期或已经过期的情况时,您可以参考本文指导更新HTTPS证书,以免对您的服务造成不必要的中断。 更新ELB Ingress证书场景 更新证书场景 说明 使用ELB服务中的证书 更新HTTPS证
) 默认取值: 不涉及 X-Auth-Token 是 String 参数解释: 调用接口的认证方式分为Token和AK/SK两种,如果您使用的Token方式,此参数为必填,请填写Token的值,获取方式请参见获取token。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及
CCE集群中的EVS存储卷被删除或者过期后是否可以恢复? 云硬盘EVS存储需要人工配置备份策略。如果卷被删除或者释放,可以使用云硬盘备份恢复数据。 详细请参见备份云硬盘。 父主题: 存储管理
创建对等连接 单击“立即创建”。 单击已创建的对等连接名称,添加路由。 单击“添加路由表”,在vpc-X的路由表中,添加vpc-A的网段,即172.16.0.0/16。 同时勾选“添加另一端VPC的路由”,在vpc-A的路由表中,添加vpc-X的网段,即192.168.0.0/16。 图2
如何解决VPC网段与容器网络冲突的问题? 在集群创建页面,若“容器网段”配置与“VPC网段”冲突,界面会提示“该网段与VPC网段有冲突,请重新选择”,重新调整“容器网段”即可。 图1 网段冲突提示 父主题: 网络异常问题排查
如果不配置集群管理权限的情况下,是否可以使用API呢? CCE提供的API可以分为云服务接口和集群接口: 云服务接口:支持操作云服务层面的基础设施(如创建节点),也可以调用集群层面的资源(如创建工作负载)。 使用云服务接口时,必须配置集群管理(IAM)权限。 集群接口:直接通过Kubernetes原生API
节点池扩容时,将根据节点池的节点模板信息计算资源,而ECS侧变更规格导致节点的规格与节点池设定的规格不一致,导致当前集群的CPU和内存使用量计算存在偏差,使扩容时节点池的资源总数可以部分超出CPU/内存的扩容上限。 节点池缩容时,如果缩容已变更规格的节点,将导致实际缩容的CPU/内存数(4
如何制作Docker镜像?如何解决拉取镜像慢的问题? Docker镜像制作 关于如何通过Dockerfile定制一个简单的Web应用程序的Docker镜像,请参见Docker基础知识或如何制作Docker镜像? 拉取镜像加速 由于运营商网络问题可能导致公共镜像仓库中的镜像拉取速度缓慢,您可将常用的镜像上传至容器镜像服务SWR,提高镜像拉取速度。
CCE集群中的节点无法远程登录,如何排查解决? CCE创建节点成功后,无法ssh远程登录。ssh回显提示“所选的用户密钥未在远程主机上注册”,即root用户不能直接登录到节点。 出现上述问题的原因是CCE创建的节点安装了cloudinit,有默认的linux用户,并且该密钥也是用于linux。