检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
"name": "cce-gpu-topology-predicate" }, { "name": "cce-gpu-topology-priority"
本地持久卷、文件存储类型(SFS)、极速文件存储(SFS Turbo)。 节点成本按照CPU、内存进行成本拆分,暂不支持GPU、NPU等异构资源的拆分。如GPU类型的节点在拆分时,会出现CPU核时单价偏高。 开通成本洞察后需要等待2天时间,才能显示分析结果。 成本洞察以天为粒度呈现成本分析结果。
Kubernetes Metrics Server CCE容器弹性引擎 CCE突发弹性引擎(对接CCI) CCE AI套件(NVIDIA GPU) CCE AI套件(Ascend NPU) Volcano调度器 CCE密钥管理(对接 DEW) CCE容器网络扩展指标 节点本地域名解析加速
{ "name": "cce-gpu-topology-predicate" }, { "name": "cce-gpu-topology-priority" },
工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态 工作负载异常:已停止 工作负载异常:GPU节点部署服务报错 工作负载异常:添加存储失败 工作负载异常:实例无法写入数据 工作负载异常:Init容器启动失败 工作负载异常:OOM问题
"24b23108-55c0-11e9-926f-0255ac101a31", "name" : "gpu-beta", "alias" : "gpu", "creationTimestamp" : "2019-04-03T03:25:34Z",
修复高可用集群haproxy连接数限制问题 v1.9.2-r1 主要特性: Kubernetes同步社区1.9.2版本 集群节点支持CentOS 7.1操作系统 支持GPU节点,支持GPU资源限制 支持web-terminal插件 v1.7.3-r13 主要特性: 新建集群的Docker版本升级到1706 支持DNS级联
修复高可用集群haproxy连接数限制问题 v1.9.2-r1 主要特性: Kubernetes同步社区1.9.2版本 集群节点支持CentOS 7.1操作系统 支持GPU节点,支持GPU资源限制 支持web-terminal插件 v1.7.3-r13 主要特性: 新建集群的Docker版本升级到1706 支持DNS级联
当集群资源不足时,调度器主动驱逐低优先级业务,保障高优先级业务正常调度。 共享使用GPU资源 使用GPU虚拟化能力实现算力和显存隔离,高效利用GPU设备资源。CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,相对于静态分配来说,虚拟化的方案更加灵活,最大
前往Grafana或AOM页面处查看您的自定义采集指标是否采集成功。 相关操作 Prometheus监控多个集群 监控GPU指标 使用CCE AI套件(NVIDIA GPU)提供GPU指标 使用dcgm-exporter提供GPU指标 父主题: 云原生观测最佳实践
23 - 1.23.0 1.23.47 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容 1.23.0 1.23.44 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容
Server插件版本发布记录 CCE容器弹性引擎插件版本发布记录 CCE突发弹性引擎(对接CCI)插件版本发布记录 CCE AI套件(NVIDIA GPU)版本发布记录 CCE AI套件(Ascend NPU)版本发布记录 Volcano调度器版本发布记录 CCE密钥管理(对接 DEW)插件版本发布记录
优先减少集群中的Memory资源碎片:建议提高binpack策略中的Memory权重为5,CPU权重保持为1。 优先减少集群中的GPU资源碎片:建议自定义资源类型(GPU),并设置GPU资源权重为10,CPU权重保持为1,Memory权重保持为1。 如何使节点CPU、内存的真实负载趋于均衡 工作负
23 - 1.23.0 1.23.47 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容 1.23.0 1.23.44 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容
28 修复部分问题 1.4.2 v1.21 v1.23 v1.25 v1.27 v1.28 支持v1.28集群 支持本地集群日志采集 支持GPU事件上报AOM字段特殊处理 1.3.6 v1.17 v1.19 v1.21 v1.23 v1.25 v1.27 - 1.3.4 v1.17
runc符号链接挂载与容器逃逸漏洞预警公告(CVE-2021-30465) Docker资源管理错误漏洞公告(CVE-2021-21285) NVIDIA GPU驱动漏洞公告(CVE-2021-1056) Sudo缓冲区错误漏洞公告(CVE-2021-3156) Kubernetes安全漏洞公告(CVE-2020-8554)
CCE节点故障检测 Kubernetes Dashboard CCE AI套件(Ascend NPU) CCE AI套件(NVIDIA GPU) 开启对分布式云支持 创建CCE Turbo集群时,可在创建集群过程中,开启对分布式云(cloudpond)支持。 开启分布式云支持后,
捷安装Prometheus。 云原生异构计算插件 插件名称 插件简介 CCE AI套件(NVIDIA GPU) CCE AI套件(NVIDIA GPU)是支持在容器中使用GPU显卡的设备管理插件,仅支持Nvidia驱动。 CCE AI套件(Ascend NPU) CCE AI套件(Ascend
所有的metrics都可以设置任意的多维标签。 数据模型更随意,不需要刻意设置为以点分隔的字符串。 可以对数据模型进行聚合,切割和切片操作。 支持双精度浮点类型,标签可以设为全unicode。 灵活而强大的查询语句(PromQL):在同一个查询语句,可以对多个metrics进行乘法、加法、连接、取分数位等操作。
未得到满足的用户等价平分剩下的资源 max-min fairness算法的最大问题是认为资源是单一的,但是现实情况中资源却不是单一的,例如CPU、Memory、GPU等资源在分配时都需要考虑。这个时候DRF应运而生,简单来说DRF就是 max-min fairness 算法的泛化版本,可以支持多种类型资源的公平分配,