检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Turbo集群支持使用云原生网络2.0。 适用场景 性能要求高,需要使用VPC其他网络能力的场景:由于云原生网络2.0直接使用的VPC网络,性能与VPC网络的性能几乎一致,所以适用于对带宽、时延要求极高的业务场景,比如:线上直播、电商优惠等。 大规模组网:云原生网络2.0当前最大可支持2000个ECS节点,10万个容器。
”查看各区域的授权记录。 aom_admin_trust aom_admin_trust委托的说明请参见AOM云服务授权。 由于云原生观测功能对其他云服务有许多依赖,如果没有所需的权限,可能会因为某个服务权限不足而影响云原生观测功能的正常使用。因此在使用云原生观测功能期间,请不要
是否可以直接连接CCE集群的控制节点? CCE支持使用Kubectl工具连接集群,具体请参见通过Kubectl连接集群。 CCE不支持登录控制节点执行相关操作。 父主题: 集群运行
守护进程集(DaemonSet) DaemonSet(守护进程集)在集群的每个节点上运行一个Pod,且保证只有一个Pod,非常适合一些系统层面的应用,例如日志收集、资源监控等,这类应用需要每个节点都运行,且不需要太多实例,一个比较好的例子就是Kubernetes的kube-proxy。 DaemonSet跟
CCE节点上监听的端口列表 表1 Node节点监听端口 目的端口 协议 端口说明 10248 TCP kubelet健康检查端口 10250 TCP kubelet服务端口,提供节点上工作负载的监控信息和容器的访问通道 10255 TCP kubelet只读端口,提供节点上工作负载的监控信息
应用现状 随着容器化技术的发展,越来越多的企业使用容器代替了虚拟机完成应用的运行部署。目前许多企业选择自建Kubernetes集群,但是自建集群往往有着沉重的运维负担,需要运维人员自己配置管理系统和监控解决方案。企业自运维大批镜像资源,意味着要付出高昂的运维、人力、管理成本,且效率不高。
登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 通过Pod内存监控查看内存增长曲线,确定异常出现时间。 根据监控、内存增长时间点、日志、进程名等信息,排查Pod内对应进程是否存在内存泄漏。
、弹性文件、对象存储等服务的权限。 网络类服务 CCE支持集群下容器发布为对外访问的服务,因此需要获取访问虚拟私有云、弹性负载均衡等服务的权限。 容器与监控类服务 CCE集群下容器支持镜像拉取、监控和日志分析等功能,需要获取访问容器镜像、应用管理等服务的权限。 当您同意授权后,C
字母与数字之外的字符均会被替换为_。 用户可以按照上述格式对监控任务进行创建、修改、及删除,当前仅支持最多10个监控任务的创建,且多个监控任务匹配到同一个监控后端时,每一个监控后端将会产生监控任务数量的监控指标。 修改或删除监控任务,都将导致丢失原有监控任务所采集的监控数据,请谨慎操作。
对问题进行全面的分析和判定,并提供具体的修复建议。这种综合诊断方法不仅提高了故障定位的准确性,还显著减少了运维人员的工作负担,从而提升了整体运维效率。 前提条件 已获取资源权限。 集群版本高于v1.17。 集群处于“运行中”状态。 选择Pod进行诊断 登录CCE控制台,单击集群名称进入集群详情页。
在CCE中安装部署Jenkins方案概述 Jenkins是什么 Jenkins是一个开源的、提供友好操作界面的持续集成(CI)工具,起源于Hudson,主要用于持续、自动的构建/测试软件项目、监控外部任务的运行。 Jenkins用Java语言编写,可在Tomcat等流行的servlet容器中运行,也可独立运行。通常与版
Kubeflow部署 Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工
中间件部署平台:CCE集群可以作为中间件的部署平台,使用StatefulSet、PVC等资源配置,能够实现应用的有状态化,同时配套弹性负载均衡实例,可实现中间件服务的对外发布。 执行普通任务、定时任务:使用容器化方式运行Job、CronJob类型应用,帮助业务降低对主机系统配置的依赖,全局的资源调度既保证
节点池一直在扩容中但“操作记录”里为何没有创建节点的记录? 问题现象 节点池的状态一直处于“扩容中”,但是“操作记录”里面没有看到有对应创建节点的记录。 原因排查: 检查如下问题并修复: 租户是否欠费。 查看节点池配置的规格是否资源不足。 租户的ECS或内存配额是否不足。 如果一
集群升级完毕,由用户验证当前集群正在运行的业务是否正常。 检查步骤 业务不同,验证的方式也有所不同,建议您在升级前确认适合您业务的验证方式,并在升级前后均执行一遍。 常见的业务确认方式有: 业务界面可用 监控平台无异常告警与事件 关键应用进程无错误日志 API拨测正常等 解决方案 若集群升级后您的在线业务有异常,请联系技术支持人员。
开通成本洞察需要安装云原生监控插件,插件采集的监控指标将上报至AOM实例,AOM针对基础指标免费,自定义指标由AOM服务收费,具体请参考价格详情。成本洞察能力使用的监控指标均为基础指标。 开通成本洞察会在“华北-北京四”区域创建一个OBS桶,用来存放从费用中心订阅的基础账单数据。OBS产生的费用详情请参考价格详情。
在CCE集群中使用容器的安全配置建议 在CCE集群中使用密钥Secret的安全配置建议 在CCE集群中使用工作负载Identity的安全配置建议 工作负载指标监控实践 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台
Request和Used的资源,应该根据哪个来估算成本,进行计算Pod的费用,Pod的CPU、内存使用量等资源指标是动态变化的,如何做到准确的估算? 在计算成本时的Pod使用量取值为Pod申请量(Request)和实际使用量(used)中的最大值。基于普罗监控数据,可以清晰识别分钟级别的应用资源,进行成本计算。
云原生监控插件状态 否 同上云原生监控插件状态。 prometheus工作负载近24小时CPU使用率最大值是否超过80% 是 云原生监控插件主要提供了集群运维监控的能力,资源使用率过高会导致存在过载风险,影响集群监控能力。可前往“监控中心 > 工作负载”监控中查看prometheus
与其它云服务的关系 云容器引擎需要与其他云服务协同工作,云容器引擎需要获取如下云服务资源的权限。 图1 云容器引擎与其他服务的关系示意图 云容器引擎与其他服务的关系 表1 云容器引擎与其他服务的关系 服务名称 云容器引擎与其他服务的关系 主要交互功能 弹性云服务器 ECS 在云容