检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
systemctl stop kubelet kubelet-monit docker docker-monit 检查是否有程序正在使用GPU卡设备。 运行命令: sudo fuser -v /dev/nvidia* 如无fuser命令(以基于RPM的Linux发行版为例),可执行命令yum
管理自定义资源 自定义资源定义(Custom Resource Definition,CRD) 是对Kubernetes API的扩展,当默认的Kubernetes资源无法满足业务需求时,您可以通过CRD对象来定义新的资源类别。 根据CRD的定义,您可以在集群中创建自定义资源(Custom
集群删除失败:安全组中存在残留资源 CCE在删除集群时,会连接集群的kube-apiserver查询集群对接的周边资源信息,如Turbo集群对接的弹性网卡/弹性辅助网卡等,当CCE集群的状态为不可用,冻结,休眠等状态时,删除集群有可能会出现查询资源失败而导致集群删除失败的情况。 故障现象
cpu: 500m limits: cpu: 500m schedulerName:设置为volcano,表示使用Volcano调度该工作负载。 scheduling.k8s.io/group-name:指定上一步中创建的PodGroup,示例为pg-test1。
ingress.kubernetes.io/permanent-redirect-code注解修改永久重定向的返回状态码。例如将永久重定向的状态码设置为308: nginx.ingress.kubernetes.io/permanent-redirect-code: '308' 在Nginx
升级前检查异常问题排查 升级前检查项 节点限制检查异常处理 升级管控检查异常处理 插件检查异常处理 Helm模板检查异常处理 Master节点SSH连通性检查异常处理 节点池检查异常处理 安全组检查异常处理 残留待迁移节点检查异常处理 K8s废弃资源检查异常处理 兼容性风险检查异常处理
Kubeflow部署 Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一
变更计费模式概述 在购买集群及集群中使用的其他云服务资源后,如果发现当前计费模式无法满足业务需求,您可以变更计费模式。 按需计费:当前通过云容器引擎控制台只支持集群和节点从按需计费模式转包年/包月计费,如表1所示。 包年/包月:包年/包月计费模式的集群和节点在计费周期内不支持变更
Fluent Bit内存崩溃漏洞公告(CVE-2024-4323) Fluent Bit是一个功能强大、灵活且易于使用的日志处理和转发工具,适用于各种规模和类型的应用和系统(如Linux、Windows、嵌入式Linux、MacOS等)。Fluent Bit 是众多云提供商和企业
混合云 应用场景 多云部署、容灾备份 为保证业务高可用,需要将业务同时部署在多个云的容器服务上,在某个云出现事故时,通过统一流量分发的机制,自动的将业务流量切换到其他云上。 流量分发、弹性伸缩 大型企业客户需要将业务同时部署在不同地域的云机房中,并能根据业务的波峰波谷进行自动弹性扩容和缩容,以节约成本。
节点预留资源策略说明 节点的部分资源需要运行一些必要的Kubernetes系统组件和Kubernetes系统资源,使该节点可作为您的集群的一部分。 因此,您的节点资源总量与节点在Kubernetes中的可分配资源之间会存在差异。节点的规格越大,在节点上部署的容器可能会越多,所以K
全面修复Kubernetes权限许可和访问控制漏洞公告(CVE-2018-1002105) 漏洞详情 近日,Kubernetes社区发现安全漏洞CVE-2018-1002105。通过伪造请求,Kubernetes用户可以在已建立的API Server连接上提权访问后端服务,华为云容器服务已在第一时间完成全面修复。
升级前检查项 集群升级前,系统将自动进行全面的升级前检查,当集群不满足升级前检查条件时将无法继续升级。为了能够更好地避免升级风险,本文提供全量的升级前检查问题及解决方案,帮助您对可能存在的升级故障进行预处理。 表1 检查项列表 序号 检查项名称 检查项说明 1 节点限制检查异常处理
定义自动创建的底层存储名称,实际创建的底层存储名称为“存储卷名称前缀”与“PVC UID”的拼接组合,如果不填写该参数,默认前缀为“pvc”。 例如,存储卷名称前缀设置为“test”,则实际创建的底层存储名称test-{uid}。 容量 申请的存储卷容量大小,支持GiB和MiB。 说明: 由于本地持久卷使
ELB负载均衡支持源IP跟后端服务会话保持 v1.9.10-r1 主要特性: 支持对接SFS存储 支持Service自动创建二代ELB 支持公网二代ELB透传源IP 支持设置节点最大实例数maxPods v1.9.10-r0 主要特性: kubernetes对接ELB/Ingress,新增流控机制 Kubernetes同步社区1
ELB负载均衡支持源IP跟后端服务会话保持 v1.9.10-r1 主要特性: 支持对接SFS存储 支持Service自动创建二代ELB 支持公网二代ELB透传源IP 支持设置节点最大实例数maxPods v1.9.10-r0 主要特性: kubernetes对接ELB/Ingress,新增流控机制 Kubernetes同步社区1
表示容器在主机指示后正确关闭。一般来说,退出码143不需要进行故障排除。 255 状态码超出范围 表示容器退出状态码超出范围。例如,可能是设置异常退出使用exit(-1)导致的,而-1将会自动转换成255。 出现该异常时无法判断原因,需要进一步通过容器日志定位原因。 Linux标准中断信号
修复多队列场景下Deployment扩缩容的问题 调整默认开启的算法插件 1.2.5 v1.15 v1.17 v1.19 修复某些场景下OutOfcpu的问题 修复queue设置部分capability情况下Pod无法调度问题 支持volcano组件日志时间与系统时间保持一致 修复队列间多抢占问题 修复ioawar
的kube-apiserver将会暴露到互联网,存在被攻击的风险,建议对kube-apiserver所在节点的EIP配置DDoS高防服务或设置安全组规则。 图1 集群连接信息 您需要先下载kubectl以及配置文件,复制到您的客户端机器,完成配置后,即可以访问Kubernetes
置暂不生效。(插件1.3.0及以上版本没有该限制) 如果业务容器的数据目录是通过数据卷(Volume)挂载的,插件不支持采集它的父目录,需设置采集目录为完整的数据目录。 当容器存活时间低于1分钟时,日志无法及时采集,可能存在日志丢失的情况。 费用说明 LTS创建日志组免费,并每月