检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本地持久卷、文件存储类型(SFS)、极速文件存储(SFS Turbo)。 节点成本按照CPU、内存进行成本拆分,暂不支持GPU、NPU等异构资源的拆分。如GPU类型的节点在拆分时,会出现CPU核时单价偏高。 开通成本洞察后需要等待2天时间,才能显示分析结果。 成本洞察以天为粒度呈现成本分析结果。
32 120 15 2/0.4 40 2 KVM GPU加速型 GPU加速型云服务器(GPU Accelerated Cloud Server,GACS)能够提供强大的浮点计算能力,从容应对高实时、高并发的海量计算场景。 GPU加速型云服务器包括G系列和P系列两类。其中: G系列
annotations["volcano.sh/qos-level"] -7~7间整数 无 允许 - 小于0代表低优先级任务,即离线作业,大于等于0代表高优先级任务,即在线作业。 Pod的入口带宽 参数名 取值范围 默认值 是否允许修改 作用范围 annotations["kubernetes.io/ingress-bandwidth"]
例如工作负载挂载某个可用区的云硬盘时只能调度到相同可用区的节点上。 节点特殊资源:部分Pod可能请求特殊的资源类型,例如GPU等资源,调度器只能将其调度到GPU类型的节点上。 节点健康状态:节点的健康状况和状态可能影响调度决策,不健康的节点可能不会调度新的Pod。 为什么Pod实际负载在节点上分布不均匀
工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态 工作负载异常:已停止 工作负载异常:GPU节点部署服务报错 工作负载异常:添加存储失败 工作负载异常:实例无法写入数据 工作负载异常:Init容器启动失败 工作负载异常:OOM问题
"24b23108-55c0-11e9-926f-0255ac101a31", "name" : "gpu-beta", "alias" : "gpu", "creationTimestamp" : "2019-04-03T03:25:34Z",
遍。 常见的业务确认方式有: 业务界面可用 监控平台无异常告警与事件 关键应用进程无错误日志 API拨测正常等 解决方案 若集群升级后您的在线业务有异常,请联系技术支持人员。 父主题: 升级后验证
{ "name": "cce-gpu-topology-predicate" }, { "name": "cce-gpu-topology-priority" },
23 - 1.23.0 1.23.47 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容 1.23.0 1.23.44 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容
修复高可用集群haproxy连接数限制问题 v1.9.2-r1 主要特性: Kubernetes同步社区1.9.2版本 集群节点支持CentOS 7.1操作系统 支持GPU节点,支持GPU资源限制 支持web-terminal插件 v1.7.3-r13 主要特性: 新建集群的Docker版本升级到1706 支持DNS级联
修复高可用集群haproxy连接数限制问题 v1.9.2-r1 主要特性: Kubernetes同步社区1.9.2版本 集群节点支持CentOS 7.1操作系统 支持GPU节点,支持GPU资源限制 支持web-terminal插件 v1.7.3-r13 主要特性: 新建集群的Docker版本升级到1706 支持DNS级联
集群规格为1000节点及以上时,默认值200 开启GPU共享 enable-gpu-share 是否开启GPU共享,该参数仅v1.23.7-r10、v1.25.3-r0及以上版本集群支持。 关闭GPU共享时,需保证集群中的Pod没有使用共享GPU能力(即Pod不存在cce.io/gpu-decision的a
Server插件版本发布记录 CCE容器弹性引擎插件版本发布记录 CCE突发弹性引擎(对接CCI)插件版本发布记录 CCE AI套件(NVIDIA GPU)版本发布记录 CCE AI套件(Ascend NPU)版本发布记录 Volcano调度器版本发布记录 CCE密钥管理(对接 DEW)插件版本发布记录
优先减少集群中的Memory资源碎片:建议提高binpack策略中的Memory权重为5,CPU权重保持为1。 优先减少集群中的GPU资源碎片:建议自定义资源类型(GPU),并设置GPU资源权重为10,CPU权重保持为1,Memory权重保持为1。 如何使节点CPU、内存的真实负载趋于均衡 工作负
e7、e6、e3 磁盘增强型 d7、d6、d6nl、d2、d3 超高I/O型 i7、i7n、i3、ir7、ir7n、ir3 高性能计算型 h3、hc2 GPU加速型 pi2、pi1 p2s、p2v、p2vs、p1 g6、g5、g6v AI加速型 ai1s、ai1 Flexus云服务器X x1、x1e
"name":"cce-gpu-topology-predicate" }
可观测性生态有一个全面的认识。 图1 可观测性体系 从架构分层的角度,CCE可观测性分为四个层次。自下而上分别为:算力底座、数据采集、监控与日志、云原生观测。 算力底座 云容器引擎CCE支持多种类型的集群创建,包括CCE Turbo集群与CCE Standard集群,以满足您各种
务器进行处理。开启会话保持后,负载均衡会把来自同一客户端的访问请求持续分发到同一台后端云服务器上进行处理。 例如在大多数需要用户身份认证的在线系统中,一个用户需要与服务器实现多次交互才能完成一次会话。由于多次交互过程中存在连续性,如果不配置会话保持,负载均衡可能会将部分请求分配至
在CCE集群中使用工作负载Identity的安全配置建议 工作负载指标监控实践 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据 工作负载弹性伸缩实践 CCE容器实例弹性伸缩到CCI服务
、开发、测试环境以及中低性能数据库等场景。 GPU加速型:提供优秀的浮点计算能力,从容应对高实时、高并发的海量计算场景。P系列适合于深度学习,科学计算,CAE等;G系列适合于3D动画渲染,CAD等。仅支持1.11及以上版本集群添加GPU加速型节点。 高性能计算型:实例提供具有更稳