检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
步骤一:安装云原生监控插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”。 在“插件中心”页面右侧找到云原生监控插件,单击“安装”。 建议您关注以下配置,其他配置可按需进行设置。详情请参见云原生监控插件。 数据存储配置:必选本地数据存储,可选监控数据是否对接AOM或三方监控平台。
可观测性插件配置 参数 说明 云原生监控插件 选择指标上报的AOM实例。如果没有可用实例,您可以单击“新建实例”进行创建。 AOM采集的基础指标免费,自定义指标将由AOM服务进行收费,详情请参见价格详情。关于如何采集自定义指标,请参见使用云原生监控插件监控自定义指标。 云原生日志采集插件
CCE容器网络扩展指标 插件介绍 CCE容器网络扩展指标插件(dolphin)是一款容器网络流量监控管理插件,支持CCE Turbo集群非主机网络容器的流量统计,以及节点内容器联通性健康检查。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object
云原生可观测性插件 插件名称 插件简介 云原生监控插件 云原生监控插件包含Prometheus-operator和Prometheus组件,提供简单易用的端到端Kubernetes集群监控能力。 使用云原生监控插件可将监控数据与监控中心对接,在监控中心控制台查看监控数据,配置告警等。 云原生日志采集插件
易受攻击主机的完全root权限,目前漏洞POC/EXP已公开,风险较高。 Polkit(PolicyKit)是一个用于在类Unix操作系统中控制系统范围权限的组件。pkexec是Plokit框架中的一部分,执行具有提升权限的命令,是sudo的替代方案。请使用Polkit的用户及时安排自检并做好安全加固。
通任务(Job)使用,主要面向大数据分析、静态网站托管、在线视频点播、基因测序、智能视频监控、备份归档、企业云盘(网盘)等场景。 相关参考 CCE支持挂载第三方租户的OBS桶,包含OBS并行文件系统(优先)和OBS对象桶,使用方法请参见挂载第三方租户的对象存储。 父主题: 对象存储卷
准备应用运行环境 在应用分析后,您已经了解到应用所需的操作系统、运行环境等。您需要准备好这些环境。 安装Docker:应用容器化时,需要将应用构建为容器镜像。您需要准备一台机器,并安装Docker。 获取运行环境:获取运行应用的运行环境,以及对接的MongoDB数据库。 安装Docker
b等源代码托管网站。 约束与限制 该实践方案仅支持在CCE集群下部署,不适用专属云场景。 Jenkins系统的维护由开发者自行负责,使用过程中CCE服务不对Jenkins系统提供额外维护与支持。 方案架构 Jenkins部署分为以下两种模式: 一种是直接使用单Master安装Je
的RBAC策略后,大概需要等待13分钟RBAC策略才能生效;授予OBS相关的系统策略后,大概需要等待5分钟系统策略能生效。 如果使用文件存储,需要设置SFS FullAccess权限。 集群管理 应用运维管理 AOM 费用中心 BSS 如果需要弹性扩容权限,需要设置AOM FullAccess权限。
告警及集群中应用的指标告警。在集群发生故障时能够及时发现并预警,协助您维护业务稳定性。 商用 5 监控中心上线 监控中心提供容器洞察、健康诊断、仪表盘等容器监控与诊断能力,可实时监控应用及资源,采集各项指标及事件等数据以分析应用健康状态,提供全面、清晰、多维度数据可视化能力。 商用
CCE Turbo集群支持管理边缘基础设施(智能边缘小站)的能力。启用分布式支持后,一个集群可以统一管理数据中心和边缘的计算资源,用户可以便捷地根据应用的诉求将其部署在对应的区域。 CCE Turbo集群使用分布式云资源功能需要提前注册并部署智能边缘小站服务。 图1 CCE Turbo分布式管理
模型训练环节 Kubeflow诞生于2017年,Kubeflow项目是基于容器和Kubernetes构建,旨在为数据科学家、机器学习工程师、系统运维人员提供面向机器学习业务的敏捷部署、开发、训练、发布和管理平台。它利用了云原生技术的优势,让用户更快速、方便地部署、使用和管理当前最流行的机器学习软件。
运行时CPU/内存占用 低 高 节点操作系统与容器引擎对应关系 v1.23及以上的VPC网络集群都支持Containerd,容器隧道网络集群从v1.23.2-r0开始支持Containerd。 表2 CCE集群节点操作系统与容器引擎对应关系 操作系统 内核版本 容器引擎 容器存储Rootfs
y的安全配置建议 监控相关 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据 使用云原生监控插件监控自定义指标 使用AOM监控自定义指标 使用P
Server通信的端口。 10248 –healthz-port:健康检查服务的端口。 10255 –read-only-port:只读端口,用于对外提供监控指标。 父主题: 节点运行
如何确认已创建的集群是否为多控制节点模式? 是否可以直接连接CCE集群的控制节点? CCE集群删除之后相关数据能否再次找回? 为什么CCE集群界面的节点磁盘监控看起来不准确? 如何修改CCE集群名称? 控制台访问异常问题排查 父主题: 集群
配置中心 集群配置概览 集群访问配置 网络配置 调度配置 集群弹性伸缩配置 监控运维配置 Kubernetes原生配置 异构资源配置
单击“立即开通”选择要开通的集群后,单击“确认开通”。 开通过程中系统将自动执行如下步骤:安装云原生监控插件、成本标签激活、创建默认租户OBS桶、订阅账单数据。等待3-5分钟,即可进入洞察界面。 安装云原生监控插件:为成本洞察功能提供基础监控数据。 成本标签激活:成本标签激活后费用中心导出的账
成本计算模型 工作负载成本计算原理 工作负载成本是由Pod成本聚合而成。 Pod成本:使用监控指标和实际账单作为输入,通过CPU、内存使用量占整体节点资源比例计算出来的成本,结合Pod关联PVC存储的成本。 计算过程中,Pod的使用量为当前采样时刻下申请量(Request)和实际使用量(Real
3-r0及以上版本之后可能会因为系统组件预留值变大而导致节点上的负载被驱逐。 CCE节点内存的总预留值等于系统组件预留值与Kubelet管理Pod所需预留值之和。 公式为:总预留值 = 系统组件预留值 + Kubelet管理Pod所需预留值 表1 系统组件预留规则 内存总量范围 系统组件预留值 内存总量