每个节点的GPU虚拟化设备数量 节点-XGPU设备显存分配量 字节 每个节点上的GPU虚拟化设备显存总量 GPU卡-XGPU设备显存使用率 百分比 每张GPU卡上的GPU虚拟化设备显存使用率 计算公式:显卡上所有XGPU设备的显存使用量之和 / 显卡显存总量 GPU卡-XGPU设备显存分配量
单击待卸载磁盘所在行的“卸载”,卸载云硬盘。 数据盘大小 更多操作指导请参见ECS扩容云硬盘。 登录ECS控制台。 单击目标云服务器名称,进入弹性云服务器详情页。 切换至“云硬盘”页签,单击待扩容云硬盘右侧的“扩容”,系统跳转至云硬盘控制台的“扩容磁盘”页面。 根据界面提示,设置“目标容量”。 设置完成后,单击“下一步”并根据界面提示完成订单提交。
资源隔离的措施,如:CPU的绑核、NUMA亲和性、潮汐亲和特性,网络带宽控制等,有效的保障资源敏感型业务的SLO。 资源优先级控制的措施,如:CPU分级控制、内存分级控制、网络优先级控制、磁盘IO的优先级控制等,在提升资源分配率的同时,又少影响或不影响优先级高的业务SLO。 资源
rnetes事件到AOM。 关闭控制面组件日志采集 进入“日志中心 > 控制面组件日志”,单击“配置控制面组件日志”,取消勾选不需要采集的组件。 图2 配置控制面组件日志 关闭控制面审计日志采集 进入“日志中心 > 控制面审计日志”,单击“配置控制面审计日志”,取消勾选不需要采集的组件。
调度失败如何解决? 上传模板失败如何解决? 如何根据集群规格调整插件配额? NGINX Ingress控制器插件处于Unknown状态时卸载残留 NGINX Ingress控制器插件升级后无法使用TLS v1.0和v1.1 NPU插件从1.x.x升级到2.x.x后Pod无法启动如何解决?
关于使用UDP协议健康检查的详细说明,请参见使用UDP协议有什么注意事项?。 操作步骤 登录CCE控制台,单击服务列表中的“网络 > 虚拟私有云 VPC”,在网络控制台单击“访问控制 > 安全组”。 在界面右侧的安全组列表中找到集群的安全组。单击“入方向规则”页签,单击“添加规则”,添加入方向规则如下。
会一直处于pending状态,因为Pod使用的PVC带有节点标签,由于冲突无法调度成功。 删除按需计费节点 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签。 找到目标节点,单击节点后的“更多 > 删除”。 在弹出的“删除节点
占比例,以及命名空间的总数,以便及时发现和解决业务异常。 控制面健康概况 除了控制面组件和Master节点的异常占比,控制面资源概况中还提供了API Server的总QPS和请求错误率指标。作为集群的API服务提供者,控制面API Server的异常可能会导致整个集群无法访问,同时也会影响依赖API
排查项一:节点能否连接互联网 登录ECS控制台。 查看节点对应的弹性云服务器是否已绑定弹性IP或者配置NAT网关。 如图1,若弹性IP一栏有IP地址,表示已绑定弹性IP;若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP 排查项二:节点是否配置网络ACL 登录VPC控制台。 单击左侧导航栏的“访问控制
VPC、容器隧道网络模型 通过控制台开启获取源IP的步骤如下: 在CCE控制台创建负载均衡类型的Service,服务亲和选择“节点级别”而不是“集群级别”。 前往ELB控制台,开启ELB实例对应监听器的“获取客户端IP”功能。独享型ELB默认开启源地址透传功能,无需手动开启。 在管理控制台左上角单击图标,选择区域和项目。
资源费用组成。了解每种计费项的计费因子、计费公式等信息,请参考计费项。 集群:控制节点资源费用,按照每个集群的类型(虚拟机或裸金属、控制节点数)、集群规模(最大支持的节点数)的差异收取不同的费用。 控制节点资源的价格目录请参见:云容器引擎价格目录。 其他云服务资源:集群所使用的I
临时规避可以尝试重启节点,之后再提单给ECS确认问题根因。 排查项四:安全组是否被修改 登录VPC控制台,在左侧栏目树中单击“访问控制 > 安全组”,找到集群控制节点的安全组。 控制节点安全组名称为:集群名称-cce-control-编号。您可以通过集群名称查找安全组,再进一步在
Deployment可以采用滚动升级的升级方式,为对各个实例逐个进行更新,而不是同时对所有实例进行全部更新,可以控制Pod的更新速度和并发数,从而确保了升级过程中业务不中断。例如,可以设置maxSurge和maxUnavailable参数,控制同时创建的新Pod数量和同时删除的旧Pod数量。确保升级过程中始终有工作负载能够提供服务。
自动创建新的ELB。 健康检查:开启健康检查(不开启则默认为健康检查成功)。 图1 负载均衡配置 前往ELB控制台,查看对应的后端服务器组,健康检查状态正常。 在CCE控制台中查看工作负载状态处于“运行中”。 父主题: 负载均衡(LoadBalancer)
e、Ingress等资源,因此删除集群之后可能会残留网络及存储等资源,您需要前往资源所属服务手动删除。 弹性负载均衡资源 前往弹性负载均衡控制台。 通过集群使用的VPC ID进行过滤,得到该虚拟私有云下所有的弹性负载均衡实例。 查看负载均衡实例下的监听器详情,描述中包含集群ID、Service
务下发。 集群休眠 登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到需要休眠的集群,查看集群的更多操作,并单击“休眠集群”。 图1 休眠集群 在弹出的集群休眠提示框中,查看风险提示,单击“是”,等待集群完成休眠。 集群休眠后,将暂停收取控制节点资源费用。集群所属的工作节点
Turbo集群添加默认容器子网 登录CCE控制台,单击CCE Turbo集群名称,进入集群。 在“概览”页面,找到“网络信息”版块,并单击“添加”。 图1 添加容器子网 选择同一VPC下的容器子网,您可一次性添加多个容器子网。如没有其他可用的容器子网,可前往VPC控制台创建。 图2 选择容器子网
您可以创建一个自定义策略,为该策略添加bss:order:pay权限,然后将该策略授权给cce_cluster_agency委托。 创建自定义策略。 登录IAM控制台,在左侧导航栏中选择“权限管理>权限”,单击右上方的“创建自定义策略”。 配置自定义策略参数。详情请参见创建自定义策略。 策略名称:设置为CCE
URL),将本地采集到的监控数据远程存储到Prometheus中。 如果您用于接受数据的目的端为第三方厂商提供的Prometheus,您可以前往对应厂商的控制台中查看Remote Write URL。 如果您用于接受数据的目的端为自建的Prometheus,则Remote Write URL为h
为需要标签的命名空间加上标签。 在集群控制台左侧导航栏单击“命名空间”。 找到需要验签的命名空间,单击操作列的“更多>标签管理”。 新增一个标签,键值填写如下: 键:policy.sigstore.dev/include 值:true 单击“确定”。 测试镜像验签功能是否生效。 在集群控制台左侧导航栏单击“工作负载”。
您即将访问非华为云网站,请注意账号财产安全