检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
FS Turbo资源存储类型为增强版(标准型增强版、性能型增强版),设置为bandwidth。 everest.io/share-export-location:挂载目录配置。由SFS Turbo共享路径和子目录组成,共享路径可至SFS Turbo服务页面查询,子路径由用户自定义
够互访。专线的创建方法请参见云专线快速入门。 操作步骤 CoreDNS的配置都存储在名为coredns的ConfigMap下,您可以在kube-system命名空间下找到该配置项。使用如下命令可以查看到默认配置的内容。 kubectl get configmap coredns -n
选择“无状态负载”页签,单击已创建工作负载后的“监控”。在监控页面,可查看工作负载的CPU利用率和物理内存使用率。 图1 查看无状态工作负载监控 单击工作负载名称,可在“实例列表”中单击某个实例的“监控”按钮,查看相应实例的CPU使用率、内存使用率。 日志 您可以通过“日志”功能查看无状态工作负载、有状态工作负载、守
解决方案 问题场景:节点池状态异常 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面查看问题节点池状态。若该节点池状态处于伸缩中,请等待节点池伸缩完毕。 图1 查看节点池状态 问题场景:节点池操作系统不支持 由于不同版本之间的运行时和OS存在差异,该异常通常发生在低版本集群升级到1
工作负载异常:添加存储失败 问题现象 实例一直处于创建中,事件中存在“添加存储失败”的告警,事件信息如下所示: AttachVolume.Attach failed for volume "pvc-***" : rpc error: code = Internal desc = [***][disk
定的VPC网段和子网网段资源,避免后续无法扩容。 子网网段可在“创建虚拟私有云”页面的“子网配置 > 子网网段”中进行设置。在设置选项下可查看到“可用IP数”。 容器网段掩码如果设置不合适,会导致集群实际可用的节点较少。 例如: 节点规模为1000,子网可以选择192.168.0
ID和storageType必须同时被配置。 bs:EVS云存储 nfs:SFS弹性文件存储 obs:OBS对象存储 efs:SFS Turbo极速文件存储 accessModes Array of strings 指定volume应该具有的访问模式,列表中仅第一个配置参数有效。
集群网络、存储功能可靠性加固说明 发布时间:2024/04/26 当IAM服务发生区域性故障时,存在低概率触发鉴权异常,从而影响集群内工作负载存储卷挂载、负载均衡对接等功能。最新的集群版本针对该类故障场景进行了优化和加固,为确保您的业务稳定运行,建议您尽快将账号下的集群升级至目标版本。
排查思路: 确认节点标签是否已经打上nvidia资源。 查看nvidia驱动运行是否正常。 到插件运行所在的节点上,查看驱动的安装日志,路径如下所示: /opt/cloud/cce/nvidia/nvidia_installer.log 查看nvidia容器标准输出日志: 过滤容器id docker
Kubernetes抽象出了Volume来解决这两个问题,也就是存储卷,Kubernetes的Volume是Pod的一部分,Volume不是单独的对象,不能独立创建,只能在Pod中定义。 Pod中的所有容器都可以访问Volume,但必须要挂载,且可以挂载到容器中任何目录。 实际中使用容器存储如下图所示,将容器的内容挂
E控制台的概览界面查看集群监控时,将显示非细粒度关联集群的监控信息。 在IAM页面设置CCE FullAccess或者CCE ReadOnlyAccess权限后,需要配置sfsturbo:*:*权限才能使用极速文件存储卷,否则IAM用户在集群下查询极速文件存储卷将失败。 表1 CCE
0文件系统中创建子目录 支持获取存储卷的使用情况 2.4.28 v1.23 v1.25 v1.27 v1.28 v1.29 修复部分问题 2.4.21 v1.23 v1.25 v1.27 v1.28 v1.29 支持OBS多AZ冗余存储策略 支持自定义存储卷名称前缀 支持包周期EVS卷
需填写第三方监控系统的地址和Token,并选择是否跳过证书认证。 本地数据存储:将普罗数据存储在集群中的PVC存储卷里,选择用于存储监控数据的磁盘类型和大小。存储卷不随插件卸载而删除。开启本地数据存储时,将部署全量组件,详情请参见组件说明。 若monitoring命名空间下已存
s中靠前的云盘也优先被选择。由于matchLabels采用宽匹配策略,因此建议将匹配范围小的匹配策略前置。例如: 1中匹配大小为100G,存储类型为SAS的evs盘,匹配到dataVolumes中的第一块盘;2中匹配大小为100G的evs盘,由于第一块盘已被选择,因此匹配到第二块盘;
drain命令会保留某些系统级Pod不被驱逐,例如everest-csi-driver。 使用kubectl连接集群。 查看集群中的节点。 kubectl get node 选择一个节点,查看节点上存在的所有Pod。 kubectl get pod --all-namespaces -owide
问题现象 节点池的状态一直处于“扩容中”,但是“操作记录”里面没有看到有对应创建节点的记录。 原因排查: 检查如下问题并修复: 租户是否欠费。 查看节点池配置的规格是否资源不足。 租户的ECS或内存配额是否不足。 如果一次创建节点太多,可能会出现租户的ECS容量校验不过的情况发生。 解决方案:
'{"metadata":{"finalizers":null}}' kubectl delete pvc <pvc-name> 父主题: 存储管理
r工作负载。 图3 重新部署custom-metrics-apiserver 重启后,可以通过以下指令查看对应的Pod的指标是否正常(注意替换命名空间和业务Pod名)。 # 查询指标 $ kubectl get --raw "/apis/custom.metrics.k8s.io/v1beta1"
工作负载异常:GPU节点部署服务报错 问题现象 在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内 在
ELB(弹性负载均衡)所有资源详情的查看权限。 elb:*:list - ELB(弹性负载均衡)所有资源列表的查看权限。 nat:*:get - NAT网关服务所有资源详情的查看权限。 nat:*:list - NAT网关服务所有资源列表的查看权限。 sfs:*:get* - SFS(弹性文件存储)所有资源详情的查看权限。