检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
AI任务性能增强调度 NUMA亲和性调度 Volcano可解决调度程序NUMA拓扑感知的限制,实现以下目标: 避免将Pod调度到NUMA拓扑不匹配的节点。 将Pod调度到NUMA拓扑的最佳节点。 NUMA亲和性调度 云原生混部 云原生混部解决方案围绕Volcano和Kubernetes生
调度。 图1 NUMA调度策略对比 调度优先级 不管是什么拓扑策略,都是希望把Pod调度到当时最优的节点上,这里通过给每一个节点进行打分的机制来排序筛选最优节点。 原则:尽可能把Pod调度到需要跨NUMA节点最少的工作节点上。 打分公式如下: score = weight * (100
采集Kubernetes事件:您可按需开启,开启后将创建名为default-event的日志策略,并上报所有命名空间下的Kubernetes事件到云日志服务(LTS)。 采集插件日志(NGINX Ingress控制器容器标准输出):本示例中必选,需要安装NGINX Ingress控制器插件,并在插件中开启“日志采集”功能。
neigh.default.gc_thresh1和net.ipv4.neigh.default.gc_thresh2参数禁止修改。 重新加载配置文件。 sysctl -p /etc/sysctl.d/88-k8s.conf 再次查看配置是否最终生效。 sysctl -a | grep gc_thresh3
在集群控制台左侧导航栏中选择“工作负载”,单击右上角“创建工作负载”。创建一个Nginx工作负载,详情请参见创建无状态负载(Deployment)。 步骤三:修改配置文件 在集群控制台左侧导航栏中选择“配置与密钥”,切换至“monitoring”命名空间。 更新user-adapter-config配置项,
multiAZEnable 否 bool 插件中deployment组件多可用部署是否采用强制模式,默认:false。强制模式下插件Deployment实例强制调度到不同可用区的节点上,如集群下节点不满足多可用区,插件实例将无法全部运行。若multiAZEnable与multiAZBalance配置也同时
命名空间.svc.cluster.local 。这种使用有限制,注册中心部署必须容器化部署。 方案二:容器部署使用主机网络部署,然后亲和到集群的某一个节点,这样可以明确知道容器的服务地址(就是节点的地址),注册的地址为:服务所在节点IP,这种方案可以满足注册中心利用VM部署,缺陷是使用主机网络效率没有容器网络高。
会选择一个正在运行的容器数量最少的节点,可以尽量将容器平均分配到各个节点。而Binpack调度策略与之相反,它会尽可能地把所有的容器调度到一台节点上运行,尽量少用节点,避免资源碎片化。 如果在使用GPU虚拟化特性时需要使用Binpack调度策略,可以在Volcano插件的高级配置中进行修改,具体操作步骤如下。
工作负载异常:Pod一直处于Terminating状态 工作负载异常:实例驱逐异常(Evicted) 容器异常退出状态码 如何让多个Pod均匀部署到各个节点上? 如何驱逐节点上的所有Pod? 网络管理 集群安全组规则配置 工作负载网络异常时,如何定位排查? 为什么访问部署的应用时浏览器返回404错误码?
multiAZEnable 否 bool 插件中deployment组件多可用部署是否采用强制模式,默认:false。强制模式下插件Deployment实例强制调度到不同可用区的节点上,如集群下节点不满足多可用区,插件实例将无法全部运行。若multiAZEnable与multiAZBalance配置也同时
参数说明 多可用区部署 优先模式:优先将插件的Deployment实例调度到不同可用区的节点上,如集群下节点不满足多可用区,插件实例将调度到单可用区下的不同节点。 强制模式:插件Deployment实例强制调度到不同可用区的节点上,每个可用区下最多运行一个实例。如集群下节点不满足多可
"10.247.3.10", "ipv6" : false, "platform" : "linux-amd64", "swr_addr" : "100.125.16.65:20202",
app: nginx template: metadata: annotations: # 指定作业到q1队列 scheduling.volcano.sh/queue-name: "q1" volcano.sh/preemptable:
描述 category 否 String 参数解释: 集群类别。 约束限制: 不涉及 取值范围: CCE:CCE集群 CCE集群支持虚拟机与裸金属服务器混合、GPU、NPU等异构节点的混合部署,基于高性能网络模型提供全方位、多场景、安全稳定的容器运行环境。 Turbo: CCE Turbo集群。
file为基于Pod实例画像的算法。 profilePeriod Pod实例画像的周期,单位为秒,支持范围是60-2592000,即1分钟到1个月。对于指标采集累积时长未达到周期的Pod,将使用Pod资源请求量来计算节点的资源用量。 因此,初始启用基于Pod实例画像的算法,未达到画像周期之前,节点的超卖量会为0。
举例如下,假设系统每6s更新一次CPU用量,采集周期为15s,Prometheus第一次采集时间为18:30:14(采集到18:30:10的数据),第二次采集是18:30:29(采集到18:30:28的数据): CPU用量 时间点 100000 18:30:10 150000 18:30:16
当前支持隔离显存或同时隔离显存与算力,暂不支持设置为仅隔离算力,即不支持单独设置volcano.sh/gpu-core.percentage。 创建gpu-app.yaml文件,内容如下: 仅隔离显存: apiVersion: apps/v1 kind: Deployment metadata: name: gpu-app
的资源,假设每个Pod占用1GiB显存,则设置Pod数量为17个,合计17GiB显存。 在等待一小段时间后,可以在节点池详情页面中,可观察到GPU节点的扩容。 父主题: GPU调度
集群内工作负载新建或更新等涉及Pod启动,且需要对接存储卷挂载、负载均衡等功能。 修复方案 请您关注补丁版本发布记录,及时将集群升级至目标版本。已EOS集群版本请升级到在维版本进行修复。 目标集群版本: 1.21版本(于2024/04/30 00:00(北京时间)正式停止维护):v1.21.12-r0及以上
NAT转换,所以适用于对带宽、时延要求极高的业务场景,比如:线上直播、电商抢购等。 大规模组网:云原生网络2.0当前最大可支持2000个ECS节点,10万个Pod。 核心技术 OVS IPVlan,VPC路由 VPC弹性网卡/弹性辅助网卡 适用集群 CCE Standard集群 CCE