检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。
节点命令行检查异常处理 检查项内容 检查节点中是否存在升级所必须的命令。 解决方案 该问题一般由于节点上缺少集群升级流程中使用到的关键命令,可能会导致集群升级失败。 报错信息如下: __error_code#ErrorCommandNotExist#chage command is
节点paas用户登录权限检查异常处理 检查项内容 检查paas用户是否有登录权限。 解决方案 执行以下命令查看paas用户是否有登录权限: sudo grep "paas" /etc/passwd 如果paas用户权限中带有"nologin"或者"false",说明paas用户没有登录权限
优化NGINX Ingress插件配置 在插件管理中安装或编辑NGINX Ingress控制器插件,优化以下配置: 调整nginx-ingress-controller容器的资源限制。
节点时钟同步服务器检查异常处理 检查项内容 检查节点时钟同步服务器ntpd或chronyd是否运行正常。 解决方案 问题场景一:ntpd运行异常 请登录该节点,执行systemctl status ntpd命令查询ntpd服务运行状态。若回显状态异常,请执行systemctl restart
集群类型 云容器引擎支持CCE Turbo集群与普通CCE集群两种类型,以满足您各种业务需求,如下为CCE Turbo集群与CCE集群区别: 表1 集群类型对比 维度 子维度 CCE Turbo集群 CCE Standard集群 集群 定位 面向云原生2.0的新一代容器集群产品,计算
节点配置一致性检查异常处理 检查项内容 在升级集群版本至v1.19及以上版本时,将对您的节点上的Kubenertes组件的配置进行检查,检查您是否后台修改过配置文件。 /opt/cloud/cce/kubernetes/kubelet/kubelet /opt/cloud/cce/
为Nginx Ingress配置一致性哈希负载均衡 原生的Nginx支持多种负载均衡规则,其中常用的有加权轮询、IP hash等。Nginx Ingress在原生的Nginx能力基础上,支持使用一致性哈希方法进行负载均衡。 Nginx默认支持的IP hash方法使用的是线性的hash
ELB IPv4私网地址检查异常处理 检查项内容 检查集群内负载均衡类型的Service所关联的ELB实例是否包含IPv4私网IP。 解决方案 解决方案一:删除关联无IPv4私网地址ELB的负载均衡型Service。 解决方案二:为无IPv4私网IP地址的ELB绑定一个私网IP。步骤如下
使用Prometheus监控Master节点组件指标 本文将介绍如何使用Prometheus对Master节点的kube-apiserver、kube-controller、kube-scheduler、etcd-server组件进行监控。 通过监控中心查看Master节点组件指标
K8s组件内存资源限制检查异常处理 检查项内容 检查K8s组件例如etcd、kube-controller-manager等组件是否资源超出限制。 解决方案 方案一:适当减少K8s资源。 方案二:扩大集群规格,详情请参见变更集群规格。 父主题: 升级前检查异常问题排查
性能管理配置:使用应用性能管理(APM)服务,为JAVA程序提供更精准的问题分析与定位,详情请参见设置性能管理配置。 网络配置: Pod入/出口带宽限速:支持为Pod设置入/出口带宽限速,详情请参见为Pod配置QoS。
为什么登录虚拟机VNC界面会间歇性出现Dead loop on virtual device gw_11cbf51a, fix it urgently? 问题现象 VPC网络模式的集群,登录虚拟机出现 Dead loop on virtual device gw_11cbf51a,
CCE Turbo集群支持使用普通运行时和安全运行时创建工作负载,您可以根据业务需求选择使用,两者的区别如下: 分类 安全运行时 普通运行时 容器所在节点类型 弹性云服务器-物理机 弹性云服务器-虚拟机 弹性云服务器-物理机 容器引擎 Containerd Docker、Containerd
约束限制 仅支持CCE Turbo集群,且需要满足以下条件: 集群已开启IPv6双栈。 集群版本为v1.23.8-r0、v1.25.3-r0及以上。 共享带宽可加入的IPv6网卡数受限于租户配额,目前默认为20;配额约束请参见使用限制。 不支持HostNetwork的Pod。
K8s节点污点检查异常处理 检查项内容 检查节点上是否存在集群升级需要使用到的污点。 表1 检查污点列表 污点名称 污点影响 node.kubernetes.io/upgrade NoSchedule 解决方案 问题场景一:该节点为集群升级过程中跳过的节点。 配置Kubectl命令
应用场景 当业务需要使用大规模集群时,推荐您使用节点池进行节点管理,以提高大规模集群易用性。 下表介绍了多种大规模集群管理场景,并分别展示节点池在每种场景下发挥的作用: 表1 节点池场景及作用 场景 作用 集群存在较多异构节点(机型配置不同) 通过节点池可规范节点分组管理。
约束与限制 v1.19及以上的CCE Turbo集群支持此功能,v1.19以下版本CCE Turbo集群需要升级到v1.19及以上版本后才能启用此功能。 1个工作负载最多可绑定5个安全组。 通过界面创建 登录CCE控制台,单击集群名称,进入集群。
对于CCE Turbo集群: 集群内部客户端访问LB类型Service时,默认使用pass-through方式,此时客户端会直接访问ELB私网地址,然后通过ELB直接连接容器实例。
为负载均衡类型的Service指定多个端口配置健康检查 LoadBalancer Service的健康检查相关注解字段由"kubernetes.io/elb.health-check-option"升级为"kubernetes.io/elb.health-check-options