检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
公平调度(DRF) DRF(Dominant Resource Fairness)是主资源公平调度策略,可以支持多种类型资源的公平分配,应用于大批量提交AI训练和大数据作业场景。DRF调度算法优先考虑集群中业务的吞吐量,适用单次AI训练、单次大数据计算以及查询等批处理小业务场景。 启用
获取账号ID 在调用接口的时候,部分URL中需要填入账号ID(domain-id),所以需要先在管理控制台上获取到账号ID。账号ID获取步骤如下: 注册并登录管理控制台。 单击用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面的项目列表中查看账号ID。 图1 获取账号ID 父主题:
0下,会为每个Pod分配用户VPC网络下的一张网卡,支持为StatefulSet工作负载的Pod(容器网卡)固定IP,适用于需要针对具体IP地址做访问控制、服务注册、服务发现、日志审计等场景。 例如,当有一个需要访问云上数据库的StatefulSet类型业务,需要在对云上数据库进行严格的访问控制,只允
该地址需要根据集群所在区域进行替换。 自定义:自定义地址需要保证镜像可拉取。 controller.image.registry 镜像仓库域名,该参数需要与controller.image.image同时填写。 如已填写controller.image.repository,则无
[镜像名称1:版本名称1]:请替换为您本地所要上传的实际镜像的名称和版本名称。 [镜像仓库地址]:可在SWR控制台上查询,2中登录指令末尾的域名即为镜像仓库地址。 [组织名称]:请替换为1中创建的组织。 [镜像名称2:版本名称2]:请替换为SWR镜像仓库中需要显示的镜像名称和镜像版本。
查询集群列表 cce:cluster:get 查询集群详情 cce:node:create 添加节点 cce:node:delete 删除节点/批量删除节点 cce:node:update 更新节点,如更新节点名称 cce:node:get 查询节点详情 cce:node:list 查询节点列表
设置容器生命周期 操作场景 CCE提供了回调函数,在容器的生命周期的特定阶段执行调用,比如容器在停止前希望执行某项操作,就可以注册相应的钩子函数。 目前提供的生命周期回调函数如下所示: 启动命令:容器将会以该启动命令启动,请参见启动命令。 启动后处理:容器启动后触发,请参见启动后处理。
如果出现IDC机器路由没有到达专线的云上网关等情况,请排查专线两端的路由设置是否正常。 如果traceroute不通请尝试ping、telnet等方式,使用ping工具前如果ping的对象是云服务器,需确保安全组已放开ICMP策略。 父主题: 网络
体请参见节点可创建的最大Pod数量说明。 容器隧道网络访问示例 在容器隧道网络集群中创建工作负载的访问示例如下。 使用kubectl命令行工具连接集群,详情请参见通过kubectl连接集群。 在集群中创建一个Deployment。 创建deployment.yaml文件,文件内容示例如下:
create -f xxx.yaml。 步骤1:部署两个版本的服务 在集群中部署两个版本的Nginx服务,并通过Nginx Ingress对外提供七层域名访问。 创建第一个版本的Deployment和Service,本文以old-nginx为例。YAML示例如下: apiVersion: apps/v1
云监控服务AOM:CCE默认的基础资源监控,覆盖详细的容器相关指标,并提供告警配置能力。 开源Prometheus:面向云原生应用程序的开源监控工具,并集成独立的告警系统,提供更高自由度的监控告警配置。 监控 未配置监控告警,将无法建立容器集群性能的正常标准,在出现异常时无法及时收到告警,需要人工巡检环境。
使用其他方式申请显存,例如调用cudaMalloc()等。 受GPU虚拟化技术的限制,容器内应用程序初始化时,通过nvidia-smi监测工具监测到的实时算力可能超过容器可用的算力上限。 节点上开启了GPU虚拟化且有多张GPU卡时,如果GPU资源不足,不支持抢占其他Pod的GPU资源。
prometheus-adapter -n monitoring 修改prometheus-url参数值如下: HTTPS协议修改为HTTP协议。 默认域名修改为Prometheus Service的IP和端口,可通过kubectl get service -n monitoring命令查询。
登录CCE控制台,进入一个已有的集群,在左侧导航栏中选择“工作负载”。 选择“无状态负载”页签,单击待升级工作负载后的“升级”。 暂不支持批量升级多个工作负载。 有状态工作负载升级时,若升级类型为替换升级,需要用户手动删除实例后才能升级成功,否则界面会始终显示“处理中”。 请根据
您需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 该特性仅在使用独享型ELB时支持配置。 该特性依赖ELB高级转发策略,开启后将不再根据域名/路径匹配确定优先级,请您根据实际需要自定义转发策略优先级。关于转发策略优先级详情请参见ELB Ingress转发策略优先级说明。 为ELB
0/25,该网段包含128个容器IP。 图4 路由 当访问容器IP时,VPC路由就会将指向目的地址的流量转发到下一跳的节点,访问示例如下。 使用kubectl命令行工具连接集群,详情请参见通过kubectl连接集群。 在集群中创建一个Deployment。 创建deployment.yaml文件,文件内容示例如下:
jmesPath Array of Object 是 jmesPath是一种从json格式的对象中提取key-value的工具,CCE密钥管理插件使用该工具支持Secret挂载功能。 path:填写DEW服务凭据中的key。 说明: key不能带有+、-、{}、()等特殊符号。
您可以修改节点进程ID上限,详情请参见修改节点进程 ID数量上限kernel.pid_max。 排查项二:是否在实例上设置了tolerations 通过kubectl工具或单击对应工作负载后的“更多 > 编辑YAML”,检查工作负载上是不是设置了容忍度,具体请参见污点和容忍度。 排查项三:是否满足停止驱逐实例的条件
[镜像名称1:版本名称1]:请替换为您本地所要上传的实际镜像的名称和版本名称。 [镜像仓库地址]:可在SWR控制台上查询,登录指令中末尾的域名即为镜像仓库地址。 [组织名称]:请替换为已创建的组织名称。 [镜像名称2:版本名称2]:请替换为SWR镜像仓库中需要显示的镜像名称和镜像版本。
23.0 1.23.17 v1.23 适配NPU和安全容器 节点伸缩策略支持不设置步长 bug修复,自动移除已删除的节点池 设置优先调度 注册EmptyDir调度策略 修复停用节点伸缩策略时,低于缩容阈值的节点未触发缩容的问题 修改自定义规格的内存申请与限制 当没有开启弹性伸缩的节点池时上报无法伸缩的事件