检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
息并登录服务器。 web-terminal可以在Node.js支持的所有操作系统上运行,而不依赖于本机模块,快速且易于安装,支持多会话。 开源社区地址:https://github.com/rabchev/web-terminal 约束与限制 仅支持在1.21及以下版本的集群中安装此插件,暂不支持ARM集群。
创建CronHPA定时策略 节点弹性伸缩类型介绍 表2 节点弹性伸缩类型 组件名称 组件介绍 适用场景 参考文档 CCE集群弹性引擎 Kubernetes社区开源组件,用于节点水平伸缩,CCE在其基础上提供了独有的调度、弹性优化、成本优化的功能。 全场景支持,适合在线业务、深度学习、大规模成本算力交付等。
s 否 Int 判断芯片主频降级是否隔离的门限 默认值:3 check_frequency_gate 否 Bool true:开启芯片主频检查 默认值:false check_frequency_recover_threshold 否 Int 插件判断NPU设备状态健康的阈值次数
工作负载中未声明需要gpu资源。 建议方案 节点安装了gpu-beta(gpu-device-plugin)插件后,会自动安装nvidia-smi命令行工具。引起部署GPU服务报错通常是由于nvidia驱动安装失败,请排查nvidia驱动是否下载成功。 GPU节点: # 插件版本为2.0.0以下时,执行以下命令:
ScaleNodePoolOptions 参数 是否必选 参数类型 描述 scalableChecking 否 String 扩容状态检查策略: instant(同步检查), async(异步检查)。默认同步检查instant billingConfigOverride 否 ScaleUpBillingConfigOverride
务。 在集群中安装CCE AI套件(NVIDIA GPU),且插件的metrics API正常工作。您可以登录GPU节点,执行以下命令进行检查: curl {Pod IP}:2112/metrics 其中{Pod IP}是GPU插件的Pod IP,返回指标结果则为正常。 在集群中安装3
Burst。 您可以使用wrk工具对工作负载进行加压,观察开启和关闭CPU Burst时业务的时延、限流情况、突破CPU limit的情况。 使用以下命令为Pod加压,其中<service_ip>为Pod关联的Service IP。 # 您需要在节点上下载并安装wrk工具 # 在Apache配置中开启了Gzip压缩模块
gpu_driver_config 否 Map 针对单个节点池的GPU驱动的相关配置 默认值:{} health_check_xids_v2 否 String 插件健康检查的GPU错误的范围 默认值:"74,79" inject_ld_Library_path 否 String 插件向GPU容器中自动注入的L
30版本中,传统ServiceAccount令牌清理器特性进阶至GA。其作为kube-controller-manager的一部分运行,每24小时检查一次,查看是否有任何自动生成的传统ServiceAccount令牌在特定时间段内(默认为一年,通过--legacy-service-acc
ipv4.tcp_keepalive_time=600 >> /etc/sysctl.conf && sysctl -p 执行表1中的查看参数命令检查是否修改成功,当返回与修改值一致时说明修改正确。 # sysctl net.ipv4.tcp_keepalive_time net.ipv4
io/eip-id 必选 弹性公网IP的ID。 获取方法: 登录弹性公网IP控制台,在弹性公网IP列表单击需要绑定的EIP名称,找到“ID”字段复制即可。 检查Pod的EIP就绪 容器网络控制器会在Pod IP分配后,为Pod绑定EIP并回写分配结果至Pod的annotation(yangtse.
30版本中,传统ServiceAccount令牌清理器特性进阶至GA。其作为kube-controller-manager的一部分运行,每24小时检查一次,查看是否有任何自动生成的传统ServiceAccount令牌在特定时间段内(默认为一年,通过--legacy-service-acc
载了PVC的资源时,在集群迁移后,PVC状态会处于pending状态。 请确保CCE侧集群中没有与被迁移集群侧相同的资源,因为Velero工具在检测到相同资源时,默认不进行恢复。 为确保集群迁移后容器镜像资源可以正常拉取,请将镜像资源迁移至容器镜像服务(SWR)。 CCE不支持R
当运行中的容器因软件错误、资源耗尽或其他意外情况崩溃时,为了确保服务的连续性,系统会自动重建容器以迅速恢复服务。 手动删除某容器 若手动删除了某个正在运行的容器,容器编排工具会根据定义的部署策略重新调度并重建该容器,以保持预期的实例数量。 Pod优先级抢占 当高优先级的Pod需要资源时,Kubernetes可能
填写基本信息。“CCI弹性承载”选择“强制调度策略”。关于调度策略更多信息,请参考调度负载到CCI。 CCE集群创建工作负载时,需要弹性到CCI,健康检查不支持配置TCP启动探针。 进行容器配置。 配置完成后,单击“创建工作负载”。 在工作负载页面,选择工作负载名称,单击进入工作负载管理界面。
2为默认模式表示当前卡还没被用于XGPU设备分配 xgpu_device_health Gauge XGPU设备的健康情况。当前虚拟化域侧并没有提供特定的接口来检查XGPU的健康情况,所以根据XGPU设备所在物理GPU设备的健康情况反推。0表示XGPU设备为健康状态,1表示为非健康状态。 父主题: 仪表盘
填写基本信息。“CCI弹性承载”选择“强制调度策略”。关于调度策略更多信息,请参考调度负载到CCI。 CCE集群创建工作负载时,需要弹性到CCI,健康检查不支持配置TCP启动探针。 进行容器配置。 配置完成后,单击“创建工作负载”。 在工作负载页面,选择工作负载名称,单击进入工作负载管理界面。
景,可能出现有丢包、ENOBUFS等问题。 使用带宽限速会增加离线业务得不到带宽的风险,极端场景可能会出现业务因为带宽不足异常、Pod健康检查失败等问题。 出口网络带宽保障的例外场景: 当混部的在线Pod或者是离线Pod使用了网络带宽限速功能时,网络带宽限速功能的优先级会高于当前功能。
势: 全托管免运维:ELB属于全托管免运维的云服务,不占用工作节点。 高可用性:ELB支持多可用区的同城双活容灾,无缝实时切换。完善的健康检查机制,保障业务实时在线。 自动弹性:ELB支持自动弹性规格,处理能力随业务峰值自动伸缩。 超强性能:单个ELB实例最大支持100万QPS、千万级并发连接。
问题现象: 在CCE集群中新增节点时创建失败。 解决方法: 您可单击集群名称,查看“集群信息”页面。在“网络信息”中单击“节点默认安全组”后的按钮,检查集群的节点默认安全组是否被删除,且安全组规则需要满足集群安全组规则配置。 如果您的账号下含有多个集群,需要统一管理节点的网络安全策略,您也