检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
符合标准文件协议:用户可以将文件系统挂载给服务器,像使用本地文件目录一样。 数据共享:多台服务器可挂载相同的文件系统,数据可以共享操作和访问。 私有网络:数据访问必须在数据中心内部网络中。 容量与性能:单文件系统容量较高(PB级),性能极佳(IO读写时延ms级)。 应用场景:适用于多读多写(ReadWri
io/pid-pressure:节点存在 PID 压力。 node.kubernetes.io/network-unavailable:节点网络不可用。 node.kubernetes.io/unschedulable:节点不可调度。 node.cloudprovider.kubernetes
CCE集群中的节点无法远程登录,如何排查解决? 如何重置CCE集群中节点的密码? 如何收集CCE集群中节点的日志? 如何解决yum update升级操作系统导致的容器网络不可用问题? Node节点vdb盘受损,通过重置节点仍无法恢复节点? CCE集群节点中安装kubelet的端口主要有哪些? 如何配置Pod使用GPU节点的加速能力?
包,并且软件包版本需要保持配套: 驱动GPU工作的硬件驱动程序,如Tesla系列驱动。 上层应用程序所需要的库,如CUDA Toolkit工具包。 在容器使用场景下,GPU驱动是安装在节点上的,而CUDA Toolkit一般会在应用程序的容器镜像构建时预安装,或者可直接使用Nvidia官方已预装CUDA
该指标用于统计流出负载均衡器的数据包。 m7_in_Bps 网络流入速率 byte/s 该指标用于统计每秒流入负载均衡器的网络流量。 m8_out_Bps 网络流出速率 byte/s 该指标用于统计每秒流出负载均衡器的网络流量。 附录:自行开发一个exporter Promethe
您可以修改节点进程ID上限,详情请参见修改节点进程 ID数量上限kernel.pid_max。 排查项二:是否在实例上设置了tolerations 通过kubectl工具或单击对应工作负载后的“更多 > 编辑YAML”,检查工作负载上是不是设置了容忍度,具体请参见污点和容忍度。 排查项三:是否满足停止驱逐实例的条件
dminPassword 登录Jenkins后,选择安装推荐的插件。完成初始配置后,即可进入Jenkins页面。 安装kubectl命令行工具。 将kubectl下载到本地,建议和用户要使用的集群版本保持一致。详情请参见安装kubectl。 wget https://dl.k8s
将多个集群对接到同一个Prometheus监控系统,如下所示,节约维护成本和资源成本,且方便汇聚监控信息。 前提条件 目标集群已创建。 Prometheus与目标集群之间网络保持连通。 已在一台Linux主机中使用二进制文件安装Prometheus,详情请参见Installation。 操作步骤 分别获取目标集群的bearer_token
配额累计使用量包含CCE系统默认创建的资源,如default命名空间下系统默认创建的kubernetes服务(该服务可通过后端kubectl工具查看)等,故建议命名空间下的资源配额略大于实际期望值以去除系统默认创建资源的影响。 在Kubernetes中,外部用户及内部组件频繁的数据
这些节点上有污点(Taints)存在。比如,对于一个与节点本地状态有着深度绑定的应用而言, 您可能希望在出现网络分裂事件时仍然停留在当前节点上运行一段较长的时间,以等待网络恢复以避免被驱逐。 某些情况下,Kubernetes节点控制器会自动给节点添加一个污点,建议给node.kubernetes
如果在删除集群时选择同步删除节点,将会同步删除节点挂载的系统盘和数据盘,请提前做好数据备份。 在集群非运行状态(例如冻结、不可用状态)时删除集群,会残留存储、网络等关联资源,请妥善处理。 删除按需计费的集群 处于休眠状态的集群无法直接删除,请将集群唤醒后重试。 登录CCE控制台,在左侧导航栏中选择“集群管理”。
PU管理策略。 33 用户节点组件健康检查异常处理 检查用户节点的容器运行时组件和网络组件等是否健康。 34 控制节点组件健康检查异常处理 检查集群中的Kubernetes组件、容器运行时组件、网络组件等组件,要求在升级前以上组件运行正常。 35 K8s组件内存资源限制检查异常处理
执行如下命令,新建用于存放该应用的目录。例如目录设为apptest。 mkdir apptest cd apptest 使用xShell工具,将已下载的依赖文件存放到apptest目录下。 解压缩依赖文件。 tar -zxf apache-tomcat-7.0.82.tar.gz
earer Token认证鉴权的方式上报三方监控平台。 Prometheus监控 Prometheus已经成为了当前云原生可观测性的最常见工具,其强大的监控能力和活跃的社区生态,使其成功CNCF最活跃的托管项目之一。当前CCE插件市场提供了云原生监控插件用于Kubernetes集群的监控。
Kubernetes同步社区1.11.7版本 支持创建节点池(nodepool),虚拟机/鲲鹏ARM集群均支持 CCE集群支持创建裸金属节点(VPC网络),支持裸金属和虚机混合部署 GPU支持V100类型 1.11集群对接AOM告警通知机制 Service支持访问类型切换 支持服务网段 集
Kubernetes同步社区1.11.7版本 支持创建节点池(nodepool),虚拟机/鲲鹏ARM集群均支持 CCE集群支持创建裸金属节点(VPC网络),支持裸金属和虚机混合部署 GPU支持V100类型 1.11集群对接AOM告警通知机制 Service支持访问类型切换 支持服务网段 集
的资源,详情请参见节点预留资源策略说明。 节点的网络(如虚机网络、容器网络等)均被CCE接管,请勿自行添加删除网卡、修改路由和IP地址。若自行修改可能导致服务不可用。例如,节点上名为的gw_11cbf51a@eth0网卡为容器网络网关,不可修改。 集群中通过“按需计费”模式购买的
离。 下列检查项中若未明确指出检查周期,则默认周期为30秒。 表4 系统组件检查 故障检查项 功能 说明 容器网络组件异常 CNIProblem 检查CNI组件(容器网络组件)运行状态 无 容器运行时组件异常 CRIProblem 检查节点CRI组件(容器运行时组件)Docker和Containerd的运行状态
配、提升资源利用率等。除运维人员以外,其他人员(例如数据科学家、AI算法工程师等)也能通过相关监控指标了解业务的GPU使用情况,以便进行容量规划和任务调度。 新一代NVIDIA支持使用数据中心GPU管理器(DCGM)来管理大规模集群中的GPU。CCE AI套件(NVIDIA GPU)插件(版本2
rver。node-problem-detector可以作为DaemonSet运行, 也可以独立运行。 CCE容器网络扩展指标 CCE容器网络扩展指标是一款容器网络流量监控管理插件。支持流量统计信息ipv4发送公网报文数和字节数、ipv4接收报文数和字节数以及ipv4发送报文数和