检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Pod,kube-scheduler 会选择一个最优的节点去运行这个 Pod。kube-scheduler 给一个 Pod 做调度选择包含过滤和打分两个步骤。过滤阶段会将所有满足 Pod 调度需求的节点选出来,在打分阶段 kube-scheduler 会给每一个可调度节点进行优先级打分,最后kube-scheduler
图1 ICAgent采集监控指标 负载的自定义指标接口可以在创建时配置。本文将通过一个Nginx应用的示例演示如何上报自定义监控指标到AOM,步骤如下: 准备应用 您需要准备一个应用镜像,该应用需要提供监控指标接口供ICAgent采集,且监控数据需要满足Prometheus的规范。 部署应用并转换指标
CCE集群升级时,升级集群插件失败如何排查解决? 概述 本文主要介绍在CCE在升级集群时,如何查找插件升级失败的原因,并解决问题。 操作步骤 插件升级失败后,请优先进行重试。若重试不成功,则根据后续步骤排查问题。 在升级界面显示失败后,请退出集群升级页面,前往“插件中心”界面查看插件的详细状态。针对异常的插件,单击插件名称查看详情。
解决方案 解决方案一:删除关联无IPv4私网地址ELB的负载均衡型Service。 解决方案二:为无IPv4私网IP地址的ELB绑定一个私网IP。步骤如下: 查找负载均衡类型的Service所关联的ELB。 方法一:通过升级前检查的日志信息中,获取对应的ELB ID。然后前往ELB控制台通过ELB
latest 22f2bf2e2b4f 5 hours ago 22.8MB 将步骤1中下载的镜像上传到SWR。 登录到目标端容器所在虚拟机,并登录SWR。详细步骤请参考客户端上传镜像。 给镜像打标签。 docker tag [镜像名称:版本名称] [镜像仓库地
执行cat /proc/xgpu/{GPU卡序号}/meminfo,注意替换命令中的{GPU卡序号}为步骤2获取的GPU卡序号,观测GPU虚拟化的可用显存。 比较步骤2和步骤3的可用显存。 由于GPU厂商的驱动程序,本身就会占用一定量的物理显存,量级在300MB左右,这属于正常现象。例如Tesla
重装操作系统失败如何处理 移除节点重装操作系统可能会失败,如果碰到这种情况,您可以执行如下步骤重装操作系统并清理节点上的CCE组件。 登录服务器的管理控制台,完成操作系统的重装,详细步骤请参见切换操作系统。 登录服务器,执行如下命令完成CCE组件和LVM数据的清理。 将如下脚本写入clean
工作负载状态异常定位方法 工作负载状态异常时,建议先查看Pod的事件以便于确定导致异常的初步原因,再针对性解决问题。 定位流程 工作负载状态异常定位步骤如下: 查看Pod状态是否正常 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 在页面左上角选择命名空间,找到对应的工作负载,查看其状态。
要您验证两者的兼容性。建议您在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。 您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。 登录CCE控制台,前往“插件中心”处查看CCE AI套件(NVIDIA GPU)插件。 单击
CSI插件是kubernetes社区推荐的存储插件机制。CCE发布的kubernetes1.15版本及以上版本默认安装CSI插件everest,并用于对接块存储、文件存储、对象存储、极速文件存储等Iaas存储服务。 everest插件包含两部分: everest-csi-controller:提供存储卷的创建、删除、扩容、云盘快照等功能;
存储。 其余信息都配置完成后,单击“创建工作负载”。 工作负载创建成功后,容器挂载目录下的数据将会持久化保持,您可以参考验证数据持久化中的步骤进行验证。 使用kubectl自动创建专属存储 使用kubectl连接集群。 使用StorageClass动态创建PVC及PV。 创建pvc-dss-auto
nce指以读写方式挂载到单个节点。 配置建议: 根据存储卷类型进行配置。如块存储及本地持久卷存储配置ReadWriteOnce,文件存储及对象存储配置ReadWriteMany 回收策略 当与此PV绑定的PVC被删除以后,PV如何被处理的策略 参数名 取值范围 默认值 是否允许修改
unexpected. 此类异常Pod仅为异常记录,并不实际占用系统资源。 排查步骤 导致文件系统异常的原因有很多,例如物理控制节点的异常开关机。此类异常Pod并不影响正常业务,当系统文件未能恢复,出现大量异常Pod时,可采取以下步骤进行规避排查: 执行以下命令,将该Node标记为不可调度,并将已有Pod驱逐到其他节点。
通过节点池升级存量节点的NVIDIA驱动,本质上是在重启节点的过程中重新安装驱动,因此请务必在升级驱动前确认节点上不存在正在运行的任务。 步骤一:指定节点池驱动版本 登录节点查看节点上实际的驱动,驱动版本为510.47.03。 # 插件版本为2.0.0以下时,执行以下命令: cd
创建Namespace时是否自动创建ResourceQuota对象。通过配额管理功能,用户可以对命名空间或相关维度下的各类负载数量以及资源上限进行控制。 关闭:不自动创建ResourceQuota对象。 开启:自动创建ResourceQuota对象。ResourceQuota的默认取值请参见设置资源配额及限制。
插件配置完成后,单击“安装”。 步骤二:创建示例工作负载 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧导航栏中选择“工作负载”,单击右上角“创建工作负载”。创建一个Nginx工作负载,详情请参见创建无状态负载(Deployment)。 步骤三:修改配置文件 在集群控制台
检查集群升级后,新建节点是否能新建Pod。 检查步骤 基于新建节点检查创建了新节点后,通过创建DaemonSet类型工作负载,在每个节点上创建Pod。 登录CCE控制台,单击集群名称进入集群。 在导航栏中选择“工作负载”,单击右上角“创建工作负载”或“YAML创建”。创建DaemonSet的操作步骤详情请参见创建守护进程集(DaemonSet)。
容器 Kubernetes 使用Kubectl命令操作集群 Pod、Label和Namespace Pod:Kubernetes中的最小调度对象 存活探针(Liveness Probe) Label:组织Pod的利器 Namespace:资源分组 Pod的编排与调度 无状态负载(Deployment)
节点thinpool空间大小场景。如需对thinpool空间进行扩容,请参考以下步骤: 在EVS控制台扩容数据盘。详情请参见扩容云硬盘容量。 在EVS控制台扩容成功后,仅扩大了云硬盘的存储容量,还需要执行后续步骤扩容逻辑卷和文件系统。 登录CCE控制台,进入集群,在左侧选择“节点管理”,单击节点后的“同步云服务器”。
搜索DCGM-Exporter组件的“ServiceMonitor”并开启。 步骤三:在AOM中查看DCGM指标信息 进入AOM管理页面,在实例列表中选择所上报的AOM实例。 进入“指标管理”,查看DCGM指标。 步骤四:使用Grafana查看DCGM指标信息 在左侧导航栏中选择“插件中