检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
遍。 常见的业务确认方式有: 业务界面可用 监控平台无异常告警与事件 关键应用进程无错误日志 API拨测正常等 解决方案 若集群升级后您的在线业务有异常,请联系技术支持人员。 父主题: 升级后验证
建工作负载,您可以根据业务需求选择使用,两者的区别如下: 分类 安全运行时 普通运行时 容器所在节点类型 弹性云服务器-物理机 弹性云服务器-虚拟机 弹性云服务器-物理机 容器引擎 Containerd Docker、Containerd 容器运行时 Kata runC 容器内核
Putty设置tunnel,远程连接notebook。 连接成功后浏览器输入localhost:8000,登录notebook。 根据jupyter的指引,创建分布式训练作业。通过简单的设置schedulerName字段的值为“volcano”,启用Volcano调度器(以下加粗字体部分): kind: TFJob metadata:
3m28s 10.0.0.52 192.168.0.64 <none> <none> 如果使用同一VPC内的云服务器从集群外直接访问Pod的IP,会发现无法访问。 而在集群内部节点或Pod内,可以使用Pod IP正常访问Pod。例如以下示例中,进入到容器中直接访问Pod
、弹性优化、成本优化的功能。 全场景支持,适合在线业务、深度学习、大规模成本算力交付等。 节点自动伸缩 CCE突发弹性引擎(对接CCI) 将Kubernetes API扩展到无服务器的容器平台(如CCI),无需关心节点资源。 适合在线突增流量、CI/CD、大数据作业等场景。 CCE容器实例弹性伸缩到CCI服务
业务“潮汐”特性明显,预留资源较多:在线业务具有明显日级别波峰、波谷特性,用户为保证服务的性能和稳定性按照波峰申请资源,集群的大部分资源处于闲置状态。 在线和离线作业分布不同集群,资源无法分时复用:用户为在线和离线作业划分不同的K8s集群中,在线业务在波谷时,无法部署离线作业使用这部分资源。
在EVS控制台扩容成功后,仅扩大了云硬盘的存储容量,还需要执行后续步骤扩容逻辑卷和文件系统。 登录CCE控制台,进入集群,在左侧选择“节点管理”,单击节点后的“同步云服务器”。 登录目标节点。 使用lsblk命令查看节点块设备信息。 这里存在两种情况,根据容器存储Rootfs而不同。 Overlayfs:没有单
级高的业务SLO。 资源分级管控为业务潮汐明显的在线业务间混部、在线和离线业务混部奠定了基础。解决了应用预留资源较多、资源无法分时复用的问题。 在线作业与离线作业 从业务是否一直在线的角度看,其类型可分为在线作业和离线作业。 在线作业:一般运行时间长,服务流量呈周期性,资源存在潮
常见问题。 纳管时,会将所选弹性云服务器的操作系统重置为CCE提供的标准镜像,以确保节点的稳定性,请选择操作系统及重置后的登录方式。 所选弹性云服务器挂载的系统盘、数据盘都会在纳管时被格式化,请确保信息已备份。 纳管过程中,请勿在弹性云服务器控制台对所选虚拟机做任何操作。 约束与限制
CCE集群访问IDC上部署的内容审核服务时,需要使用IDC内部域名服务器。 这就需要在CCE集群上既能使用华为云域名解析服务器,也能够使用IDC内部域名服务器。如果将CCE节点上域名解析服务器指向IDC的域名解析服务器,那会导致无法解析华为云的域名;如果修改hosts文件配置增加IDC内部域名IP,在IDC内部
云上 DNS 服务器等能力。 节点本地域名解析加速 可选插件。勾选后自动安装节点本地域名解析加速插件,通过在集群节点上运行 DNS 缓存代理来提高集群 DNS 性能。 Volcano调度器 可选插件。勾选后自动安装Volcano调度器插件,并将集群的默认调度器设置为Volcano
无法访问 无法访问 无法访问 无法访问 与服务Pod不同节点的其他容器 无法访问 无法访问 无法访问 无法访问 NGINX Ingress控制器插件对接独享型ELB(Local) 私网 与cceaddon-nginx-ingress-controller Pod同节点 无法访问 无法访问
Deployment的副本数,即Pod的数量 selector: # Label Selector(标签选择器) matchLabels: app: nginx version: v1 template: metadata:
的成本画像算法进行成本拆分,提供以部门、集群、命名空间、应用等维度的成本画像。成本洞察能够帮助成本管理人员分析集群成本开销、资源使用状况,识别资源浪费,为下一步的成本优化提供输入。 父主题: 云原生成本治理
检查/分配策略/会话保持 CCE集群支持创建裸金属节点(容器隧道网络) 支持AI加速型节点(搭载海思Ascend 310 AI处理器),适用于图像识别、视频处理、推理计算以及机器学习等场景 支持配置docker baseSize 支持命名空间亲和调度 支持节点数据盘划分用户空间 支持集群cpu管理策略
23.0 1.23.47 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容 1.23.0 1.23.44 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容
检查/分配策略/会话保持 CCE集群支持创建裸金属节点(容器隧道网络) 支持AI加速型节点(搭载海思Ascend 310 AI处理器),适用于图像识别、视频处理、推理计算以及机器学习等场景 支持配置docker baseSize 支持命名空间亲和调度 支持节点数据盘划分用户空间 支持集群cpu管理策略
enable_fault_isolation 否 Bool 默认值:true true:插件识别GPU硬件故障或驱动程序问题,设置GPU卡不可用 enable_health_monitoring 否 Bool 默认值:true true:插件能够识别GPU硬件故障或驱动程序问题 enable_metrics_monitoring
存。 约束与限制 支持同步数据:虚机状态、云服务器名称、CPU数量、Memory数量、云服务器规格、公网IP等。 当用户节点指定了云服务器名称作为K8s节点名称时,该云服务器名称的修改将无法同步到CCE控制台。更多说明请参见云服务器名称、节点名称与K8s节点名称说明。 不支持同步数据:操作系统、镜像ID、磁盘配置。
Server的工作负载的正常运行,QPS和请求错误率可以帮助您快速识别和修复问题。 图2 健康概况 资源消耗Top统计 在资源消耗Top统计中,CCE服务会将CPU使用率和内存使用率排名前五的节点、无状态负载、有状态负载和Pod纳入统计范围,以帮助您识别资源消耗“大户”。如果您需要查看全部数据,可前往节点、工作负载或Pod页面。