检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何配置Pod使用GPU节点的加速能力? 问题描述 我已经购买了GPU节点,但运行速度还是很慢,请问如何配置Pod使用GPU节点的加速能力。 解答 方案1: 建议您将集群中GPU节点的不可调度的污点去掉,以便GPU插件驱动能够正常安装,同时您需要安装高版本的GPU驱动。 如果您的
使用Kubeflow和Volcano实现典型AI训练任务 Kubernetes已经成为云原生应用编排、管理的事实标准, 越来越多的应用选择向Kubernetes迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务,开发者非常愿意基于Kubernetes构建AI平台,充分利用Kubernet
labels: app: nginx spec: containers: - image: nginx:latest name: container-0 resources: limits:
请使用支持ipv6的子网。 400 CCE.01400004 No available flavors for master nodes. Master节点无可用规格。 请更换其他可用的集群规格,或联系技术支持。 400 CCE.01400005 Container network CIDR blocks
高性能调度 CCE通过集成Volcano提供高性能计算能力。 Volcano是基于Kubernetes的批处理系统。Volcano提供了一个针对BigData和AI场景下,通用、可扩展、高性能、稳定的原生批量计算平台,方便AI、大数据、基因、渲染等诸多行业通用计算框架接入,提供高
设置性能管理配置 操作场景 应用性能管理服务(APM)当前支持给JAVA类工作负载提供调用链、拓扑等监控能力。您可为JAVA类工作负载安装APM探针,以提供更精准的问题分析与定位,协助您高效解决应用难题。 工作负载创建时和创建后,均可以对JAVA类工作负载监控进行设置。 如果您已
labels: app: nginx spec: containers: - image: nginx:latest name: container-0 resources: limits:
kind: Pod metadata: name: nginx spec: containers: - image: nginx:alpine name: container-0 resources: limits: cpu:
性能要求较高:由于没有额外的隧道封装,相比于容器隧道网络模式,VPC网络模型集群的容器网络性能接近于VPC网络性能,所以适用于对性能要求较高的业务场景,比如:AI计算、大数据计算等。 中小规模组网:由于VPC路由网络受限于VPC路由表条目配额的限制,建议集群规模为1000节点及以下。 性能要求高:由于云原生网络2
ken 创建Token: kubectl create -f my-sa-token.yaml 配置集群访问信息。 将密钥中的ca.crt解码后导出备用: kubectl get secret my-sa-token-secret -n test -oyaml |grep ca.crt:
优化超节点资源调度能力 1.15.10 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 支持Tor装箱调度能力 优化NPU双DIE拓扑调度能力 1.15.8 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 支持NPU双DIE亲和调度能力 1.15
CCE Autopilot是云容器引擎服务推出的Serverless版集群,为您提供免运维的容器服务,并提供经过优化的Kubernetes兼容能力。 在创建CCE Autopilot集群后,您无需购买节点即可部署应用,同时也无需对节点的部署、管理和安全性进行维护,只需要关注应用业务逻
Network Interface,简称ENI)能力,采用VPC网段分配容器地址,支持ELB直通容器,享有高性能。 图1 云原生网络2.0 约束与限制 仅CCE Turbo集群支持使用云原生网络2.0。 适用场景 性能要求高,需要使用VPC其他网络能力的场景:由于云原生网络2.0直接使用的
$containerID 如果节点为containerd,请执行containerd命令: crictl logs $containerID 根据日志提示修复工作负载本身的问题。如下图所示,即同一Pod中的container端口冲突导致容器启动失败。 图2 container冲突导致容器启动失败
应用容器化改造方案概述 本手册基于云容器引擎实践所编写,用于指导您已有应用的容器化改造。 什么是容器 容器是操作系统内核自带能力,是基于Linux内核实现的轻量级高性能资源隔离机制。 云容器引擎CCE是基于开源Kubernetes的企业级容器服务,提供高可靠高性能的企业级容器应用
CCE容器存储插件(Everest) 插件介绍 CCE容器存储(Everest)插件基于CSI(即Container Storage Interface)为Kubernetes 集群对接云存储服务的能力。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object 插件基础配置参数,无需指定。
云容器引擎CCE提供基于Kubernetes原生类型的容器部署和管理能力,支持容器工作负载部署、配置、监控、扩容、升级、卸载、服务发现及负载均衡等生命周期管理。 容器组(Pod) 容器组(Pod)是Kubernetes创建或部署的最小单位。一个Pod封装一个或多个容器(Container)、存储资源(Volume)
GPU监控指标说明 CCE AI套件(NVIDIA GPU)插件提供GPU监控指标,并集成了DCGM-Exporter组件(要求插件版本2.7.32+),引入更丰富的GPU可观测性场景。本文介绍CCE AI套件(NVIDIA GPU)插件指标的详细信息。 计费说明 GPU指标作为
300 16 8 256 AI加速型 AI加速型弹性云服务器是是专门为AI业务提供加速服务的云服务器。基于Ascend芯片低功耗、高算力特性,能效比大幅提升,适用于AI推理场景和视频编解码场景。 AI加速型云服务器包括kAi系列和Ai系列两类。其中: kAi系列:ARM架构,处理器为鲲鹏920系列。
usRule的能力,PrometheusRules提供了一种用于监控和警报的规则语言,能够方便用户更好的使用Prometheus查询监控指标,配置基于PromQL的告警规则。 当前云原生监控插件仅支持开启本地数据存储时,提供PrometheusRules配置的能力。 如何配置PrometheusRules