检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点Sudo检查异常处理 检查项内容 检查当前节点sudo命令,sudo相关文件是否正常。 解决方案 问题场景一:sudo命令执行失败 集群原地升级过程中依赖sudo命令正常可用,请登录节点执行如下命令,排查sudo命令可用性。 sudo echo hello 如果sudo命令不
持等。 支持请求方向转发规则和响应方向转发规则,其中响应方向转发规则可以通过扩展Snippet配置实现。 转发规则按照最长路径匹配,匹配到多条路径时,转发路径最长的优先匹配。 基于内容、源IP的路由。 支持HTTP标头改写、重定向、重写、限速、会话保持等。 支持请求方向转发规则和响应方向转发规则。
部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内 在GPU服务容器中发现一些新增的文件core.*,在以前的部署中没有出现过。 问题定位 GPU插件的驱动版本较低,客户单独下载驱动安装后正常。 客户工作负载中未声明需要gpu资源。
服务发布到ELB,ELB的后端为何会被自动删除? 问题描述: 服务发布到ELB,工作负载已正常,但服务的pod端口未及时发布出来,ELB里的后端会被自动删除。 问题解答: 创建ELB时候,如果ELB健康检查失败,后端服务器组会删除,而且后续服务正常以后也不会添加。如果是更新已有的SVC时则不会删除。 添加删除
1000 允许 CCE Standard/CCE Turbo 配置建议: 1000 配置过大集群可能存在大量终止状态的Pod,影响相关List查询请求性能,产生集群过载风险 父主题: 集群
检查节点上的journald状态是否正常。 解决方案 请登录该节点,执行systemctl is-active systemd-journald命令查询journald服务运行状态。若回显状态异常,请执行systemctl restart systemd-journald命令后重新查询状态。 以下为正常回显:
集群中的节点是否有资源调度失败的事件? 问题现象: 节点运行正常且有GPU资源,但报如下失败信息: 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。 查看nvidia驱动运行是否正常。 到插件运行所在的节点上,查看驱动的安装日志,路径如下所示:
故障现象 ARM架构节点上,cgroup统计资源异常导致kubelet驱逐Pod,节点无法正常使用。 kubelet一直在驱逐pod,把容器全终止之后还是认为内存不足。 此时实际资源使用正常。 查看/sys/fs/cgroup/memory目录下cgroup的usage_in_bytes统计值有问题,与实际不符。
新建节点检查 检查内容 检查集群是否可以正常创建节点。 检查步骤 登录CCE控制台,单击集群名称进入集群。 在导航栏中选择“节点管理”,并切换至“节点”页签,单击“创建节点”。节点配置详情请参见创建节点。 图1 创建节点 解决方案 若集群升级后您的集群无法创建节点,请联系技术支持人员。
检查节点时钟同步服务器ntpd或chronyd是否运行正常。 解决方案 问题场景一:ntpd运行异常 请登录该节点,执行systemctl status ntpd命令查询ntpd服务运行状态。若回显状态异常,请执行systemctl restart ntpd命令后重新查询状态。 以下为正常回显: 图1 ntpd运行状态
到非Pod产生的容器,也就无法感知到该容器镜像被引用,因此当kubelet尝试删除容器镜像时,容器运行时会因为容器镜像仍处于被引用的状态而拦截kubelet的删除行为,导致kubelet在定期回收镜像过程中出现失败。 解决方法 登录节点上执行以下命令,过滤出告警提示的容器,确认是
上传模板失败如何解决? 问题现象 上传模板时出现“请求失败,请稍后重试”的错误,错误码为SVCSTG.CCECAM.4000121,错误信息提示“Package name and version must be valid and same with chart name and
自动弹性:ELB支持自动弹性规格,处理能力随业务峰值自动伸缩。 超强性能:单个ELB实例最大支持100万QPS、千万级并发连接。 云产品生态集成:ELB支持与WAF等多种云产品结合使用。 配置变更热更新:配置变更完全热更新,不需要Reload进程,对长连接无损。 场景示例 某企业在华为云使用CCE集群,并通过自建Nginx
String 参数解释: 集群ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围: 集群ID 默认取值: 不涉及 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 apiVersion 是 String 参数解释: API版本 约束限制: 固定值 取值范围:
必须与canary-by-header一起使用,可自定义请求头的取值,包含但不限于“always”或“never”。当请求头的值命中指定的自定义值时,请求将会转发给Canary Ingress定义的对应后端服务,如果是其他值则忽略该annotation,并通过优先级将请求流量分配到其他规则。 nginx
修改CoreDNS的缓存时间 配置存根域 修改ndots 增加coredns的缓存时间:有利于同一个域名的第N次解析,减少级联DNS的请求数量。 配置存根域:有利于减少DNS请求链路。 修改方式: 修改CoreDNS缓存时间及配置存根域 修改方法请参见为CoreDNS配置存根域。 修改完成后重启CoreDNS。
ault/deployments 使用接口指定的请求方法,并设置请求Header参数。如果接口要求添加Body参数,可参考Kubernetes API添加接口对应的结构体。 例如使用curl命令调用创建Deployment接口,请求方法为POST,并添加对应的Body体。 本示例中使用nginx
String 参数解释: 集群ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围: 集群ID 默认取值: 不涉及 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 apiVersion 是 String 参数解释: API版本 约束限制: 固定值 取值范围:
ta 参数 参数类型 描述 apiVersion String API版本,默认为v3.1 kind String 任务类型 请求示例 集群升级备份请求示例 POST /api/v3.1/projects/{project_id}/clusters/{cluster_id}/operation/snapshot
resources can not be used.", "code": 403} 问题根因 事件信息表示账号被停用或没有权限,请检查账号状态是否正常。 如账号正常请查看该用户的命名空间权限,您需要拥有该命名空间的开发权限、运维权限或管理员权限之一,或者包含PVC/PV读写操作的自定义权限。详情请参见配置命名空间权限(控制台)。