检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
部署效率和升级效率,可以实现升级时业务不中断以及统一的自动化运维。 优势 多种类型的容器部署 支持部署无状态工作负载、有状态工作负载、守护进程集、普通任务、定时任务等。 应用升级 支持替换升级、滚动升级(按比例、实例个数进行滚动升级);支持升级回滚。 弹性伸缩 支持节点和工作负载的弹性伸缩。
回的jobID来查询指定任务的进度。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径 该接口通常使用场景为: 创建、删除集群时,查询相应任务的进度。 创建、删除节点时,查询相应任务的进度。 调用方法 请参见如何调用API。
供了CCE插件调度策略的优化实践,业务可以根据自身可靠性的要求优化插件的部署策略。 高可靠部署方案 插件一般由无状态工作负载、守护进程等组成,守护进程默认会在所有节点上部署,而无状态工作负载在高可用的情况下会设置多实例、设置AZ亲和策略以及指定节点调度来保证插件应用的高可靠性。 实例级别的高可用方案:
systemctl restart kubelet 问题根因 该问题常见于文件存储挂载模式为hard的场景,在hard模式下,所有访问挂载点的进程都会Hang住,直到访问成功。使用soft模式挂载可以避免该情况,具体请参见设置挂载参数。 父主题: 工作负载异常问题排查
3/Prometheus格式的指标中找到;可以通过http://localhost:9153/metrics获取prometheus格式的监控数据。 proxy、forward:任何不在Kubernetes集群域内的查询都将转发到预定义的解析器(/etc/resolv.conf)
cgroup场景下,设置cfs bandwidth,并触发CPU带宽管控,会概率性触发warn级别告警打印,该流程会持有调度的rq锁,跟其他进程发生死锁(x86_64下为ABBA锁,aarch64下为AA锁)。 解决方法 您可以修改配置文件中的kernel.printk参数值进行修复。kernel
v1.27 RollingUpdate参数配置优化 2.0.14 v1.19 v1.21 v1.23 v1.25 v1.27 支持xGPU设备监控 支持nvidia.com/gpu与volcano.sh/gpu-* api兼容 2.0.5 v1.19 v1.21 v1.23 v1.25
一: Kubernetes Metrics Server:提供基础资源使用指标,例如容器CPU和内存使用率。所有集群版本均可安装。 云原生监控插件:该插件支持v1.17及以后的集群版本。 根据基础资源指标进行弹性伸缩:需将Prometheus注册为Metrics API的服务,详见通过Metrics
kubelet --> CRI plugin(在containerd进程中) --> containerd Docker(Kubernetes 1.23及以下版本): kubelet --> dockershim (在kubelet 进程中) --> docker --> containerd
排查项一:(退出码:0)容器中无持续运行的进程 登录异常工作负载所在的节点。 查看容器状态。 docker ps -a | grep $podName 如下图所示: 当容器中无持续运行的进程时,会出现exit(0)的状态码,此时说明容器中无进程。 排查项二:(退出码:137)健康检查执行失败
能保障。 应用场景:适用于多读多写(ReadWriteMany)场景下的各种工作负载(Deployment/StatefulSet)、守护进程集(DaemonSet)和普通任务(Job)使用,主要面向高性能网站、日志存储、DevOps、企业办公等场景。 极速文件存储性能 关于极速
云容器引擎对接了AOM,AOM会采集容器日志存储中的“.log”等格式日志文件,转储到AOM中,方便您查看和检索;并且云容器引擎基于AOM进行资源监控,为您提供弹性伸缩能力。 容器日志 云审计服务 CTS 云审计服务提供云服务资源的操作记录,记录内容包括您从公有云管理控制台或者开放API
Service,OBS)提供海量、安全、高可靠、低成本的数据存储能力,可供用户存储任意类型和大小的数据。适合企业备份/归档、视频点播、视频监控等多种数据存储场景。 专属分布式存储服务(Dedicated Distributed Storage Service,DSS)可以为您提供
组调度的具体算法是,观察Job下的Pod已调度数量是否满足了最小运行数量,当Job的最小运行数量得到满足时,为Job下的所有Pod执行调度动作,否则,不执行。 主要适用于需要多进程协作的场景: AI场景往往包含复杂的流程,Data Ingestion、Data Analysts、Data Splitting、Trai
) nginx-ingress插件安全漏洞预警公告(CVE-2021-25745,CVE-2021-25746) containerd容器进程权限提升漏洞公告(CVE-2022-24769) CRI-O容器运行时引擎任意代码执行漏洞(CVE-2022-0811) linux内核导
在高并发环境下,如果连接队列过小,则可能导致队列溢出,使部分连接无法建立。进程监听socket的连接队列大小受限于内核参数 net.core.somaxconn,调整somaxconn内核参数的值即可增加Nginx Ingress连接队列。 进程调用listen系统监听端口时会传入一个backlog
应SIGTERM信号,则可能导致Pod卡在Terminating状态。 Pod中存在未处理完的请求或资源占用:如果Pod中存在长时间运行的进程没有结束,则可能导致Pod无法被正常终止,进入Terminating状态。 Pod存在Finalizers:Finalizers是一种允许
default-secret restartPolicy可配置以下参数值: Always:总是自动重启。 OnFailure:异常退出时自动重启(进程退出状态非0)。 Never:从不重启。 配置Liveness Probe和Readiness Probe 存活探针(Liveness P
nvidia-gpu-devi /dev/nvidiactl: root 12192 F.... nvidia-gpu-devi 删除进程,上例中的进程号是12192,运行命令:sudo kill 12192 # sudo kill 12192 # sudo fuser -v /dev/nvidia*
情况。 Kubernetes提供了三种健康检查的探针: 存活探针:livenessProbe,用于检测容器是否正常,类似于执行ps命令检查进程是否存在。如果容器的存活检查失败,集群会对该容器执行重启操作;若容器的存活检查成功则不执行任何操作。 就绪探针:readinessProb