检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
响,请谨慎操作。 大部分节点关机后不再收费,特殊实例(包含本地硬盘,如磁盘增强型,超高I/O型等)关机后仍然正常收费,具体请参见ECS计费模式。 注意事项 节点关机会涉及Pod迁移,可能会影响业务,请在业务低峰期操作。 操作过程中可能存在非预期风险,请提前做好相关的数据备份。 操作方法
问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内 在GPU服务容器中发现一些新增的文件core.*,在以前的部署中没有出现过。 问题定位 GP
节点最大可允许的非永久表项数量由内核参数net.ipv4.neigh.default.gc_thresh3确定,此内核参数非namespace隔离,节点和节点上运行容器会共用ARP表项大小。容器场景下,该参数推荐设置为163790。 此内核参数计算公式如下: CCE Turbo集群&容器隧道网络模型集群:
资源概况和监控概览 资源健康概况:包括节点状态、Pod数量以及异常事件。 节点监控:您可以浏览近一小时的监控概览,其中包括CPU使用率、内存使用率和网络流入/流出速率这些常见的监控指标。 Pod使用趋势:您可以从中了解节点中各Pod的资源使用情况,并且支持查看降序Top5和升序Top5数据。
空时, 表示这个容忍度与任意的key、value和effect都匹配,即这个容忍度能容忍任何污点。 如果effect为空但键名key已填写,则表示与所有键名key的效果相匹配。 关于Kubernetes容忍度的详细说明,请参见污点和容忍度。 因此,需要修改工作负载的yaml,还原tolerations为默认配置如下:
Kubernetes kubelet和kube-proxy授权问题漏洞公告(CVE-2020-8558) 漏洞详情 Kubernetes官方发布安全公告,其核心组件kube-proxy存在主机边界绕过漏洞(CVE-2020-8558)。利用漏洞攻击者可能通过同一局域网下的容器,或
GPU虚拟化 GPU虚拟化概述 准备GPU虚拟化资源 使用GPU虚拟化 兼容Kubernetes默认GPU调度模式 父主题: GPU调度
产品类型 产品 计费模式 使用类型 单价单位 规格 云容器引擎 CCE CCE Autopilot 按需 时长 元/秒 CCE 内存资源 云容器引擎 CCE CCE Autopilot 按需 时长 元/秒 CCE CPU资源 表2 调整后 产品类型 产品 计费模式 使用类型 单价单位
操作系统问题说明 低版本内核的CentOS节点反复创删应用时偶现cgroup kmem泄露问题 CCE集群IPVS转发模式下conn_reuse_mode问题说明 cgroup统计资源异常导致kubelet驱逐Pod 低版本内核的CentOS节点出现容器OOM时,偶现ext4文件系统卡死问题
使用限制:不支持导入分区过或者具有非ext4文件系统的云硬盘。 应用场景:主要面向HPC高性能计算、企业核心集群应用、企业应用系统和开发测试等。适用于供单实例部署的无状态负载(Deployment)和普通任务(Job),以及有状态工作负载(StatefulSet)的每个实例独占式使用。因为云硬盘属于非共享
云容器引擎CCE如何定价/收费? CCE集群的计费方式如何由按需改为包年包月? CCE创建的节点是否支持按需转包周期? 华为云支持哪几种开具发票模式? CCE是否支持余额不足提醒? CCE是否支持账户余额变动提醒? 包周期的CCE集群到期可以直接删除吗? 如何退订我的云容器引擎? 集群冻结/解冻/释放常见问题
只有由副本控制管理器(例如Deployment、StatefulSet等)管理的Pod才会进行资源动态更新,独立运行的Pod不支持资源动态更新。 目前VPA不能和监控CPU和内存度量的Horizontal Pod Autoscaler (HPA)同时运行。 VPA admission webhook会对Po
cano调度器。 优先级调度与抢占介绍 用户在集群中运行的业务丰富多样,包括核心业务、非核心业务,在线业务、离线业务等,根据业务的重要程度和SLA要求,可以对不同业务类型设置相应的高优先级。比如对核心业务和在线业务设置高优先级,可以保证该类业务优先获取集群资源。当集群资源被非核心
nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,主要应用于AI、大数据等多任务协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。 已安
集群运行 当集群状态为“不可用”时,如何排查解决? CCE集群如何重置或重装? 如何确认已创建的集群是否为多控制节点模式? 是否可以直接连接CCE集群的控制节点? CCE集群删除之后相关数据能否再次找回? 为什么CCE集群界面的节点磁盘监控看起来不准确? 如何修改CCE集群名称?
Docker是一款开源的应用容器引擎,支持在Linux系统上创建一个容器(轻量级虚拟机)并部署和运行应用程序,以及通过配置文件实现应用程序的自动化安装、部署和升级。 Docker 19.03.15和20.10.3之前的版本存在资源管理错误漏洞,攻击者可以利用该漏洞导致dockerd守护进程崩溃。
成本洞察基于真实账单和集群资源用量统计数据,通过自研的成本画像算法进行成本拆分,提供以部门、集群、命名空间、应用等维度的成本画像。成本洞察能够帮助成本管理人员分析集群成本开销、资源使用状况,识别资源浪费,为下一步的成本优化提供输入。 成本洞察从Region视角和集群资源视角展示用户的容器成本使用情况。其中:
安全隔离:直接使用云上现有IaaS服务构建独享的云文件存储,为租户提供数据隔离保护和IOPS性能保障。 应用场景:适用于多读多写(ReadWriteMany)场景下的各种工作负载(Deployment/StatefulSet)、守护进程集(DaemonSet)和普通任务(Job)使用,主要面向高性能网站、日志存储、DevOps、企业办公等场景。
关于CCE集群Docker支持策略公告 ServiceAccount Token安全性提升说明 Helm V2 升级Helm V3 公告 CCE集群IPVS转发模式下conn_reuse_mode问题说明 CCE Turbo集群正式发布,敬请购买使用 Everest插件优化密钥认证功能公告
发现集群故障与潜在风险 针对诊断结果,智能给出健康评分 支持定时巡检,并可视化巡检结果 支持查看巡检历史,方便用户分析故障原因 针对故障和潜在风险,给出风险等级并提供修复建议 使用场景 运维对集群做变更前的集群状况检测,可随时主动触发健康诊断 支持运维的定时巡检,可设置定时执行时间,定期检查集群风险