检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
监控与日志 AOM:应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,实时监控您的应用及相关云资源,分析应用健康状态,提供灵活丰富的数据可视化功能,帮助您及时发现故障,全面掌握应用、资源及业务的实时运行状况
目前对象存储迁移服务OMS支持亚马逊云(中国)、阿里云、微软云、百度云、华为云、金山云、优刻得、青云、七牛云、腾讯云平台的对象存储数据迁移到华为云对象存储服务OBS。 父主题: 实施步骤
数据存储配置:必选本地数据存储,可选监控数据是否对接AOM或三方监控平台。 自定义指标采集:该配置在本实践中必须选择开启,否则将无法采集自定义指标。 插件配置完成后,单击“安装”。 步骤二:创建示例工作负载 登录CCE控制台,单击集群名称进入集群。
CCE集群中使用容器的安全配置建议 在CCE集群中使用密钥Secret的安全配置建议 在CCE集群中使用工作负载Identity的安全配置建议 监控相关 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台
NPU调度 Volcano调度 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。
约束与限制 使用镜像验签功能依赖容器镜像仓库企业版,请先创建一个企业版仓库。 安装插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”,在右侧找到容器镜像签名验证,单击“安装”。 在安装插件页面,根据需求选择“规格配置”。
Grafana Grafana是一款开源的数据可视化和监控平台,可以为您提供丰富的图表和面板,用于实时监控、分析和可视化各种指标和数据源。 Prometheus(停止维护) Prometheus是一套开源的系统监控报警框架。
在不需要时,请清理节点上的/root/.kube目录下的目录文件,防止被恶意用户利用: rm -rf /root/.kube 加固VPC安全组规则 CCE作为通用的容器平台,安全组规则的设置适用于通用场景。
安装插件 云原生监控插件当前根据数据存储配置自适应选择部署模式(3.7.1及以上版本插件支持),具体如下: 原agent模式:关闭本地数据存储,且监控数据上报至AOM服务和监控数据上报至第三方监控平台至少开启其中之一。
Container Engine,简称CCE)提供高度可扩展的、高性能的企业级Kubernetes集群,支持运行Docker容器,提供了Kubernetes集群管理、容器应用全生命周期管理、应用服务网格、Helm应用模板、插件管理、应用调度、监控与运维等容器全栈能力,为您提供一站式容器平台服务
node.cloudprovider.kubernetes.io/uninitialized:如果 kubelet 启动时指定了一个“外部”云平台驱动, 它将给当前节点添加一个污点将其标志为不可用。
(可选)创建密钥对 云平台使用公共密钥密码术来保护您的云容器引擎节点的登录信息,密码或密钥对用于远程登录节点时的身份认证。 如果选择密钥登录方式,您需要在创建云容器引擎的集群节点时指定密钥对的名称,然后在SSH登录时提供私钥。创建方法请参见创建密钥对。
第三方服务集成:网站可能需要调用第三方服务(例如地图服务、社交平台登录等)的API接口,则需要配置CORS允许跨域访问。 使用内容分发网络CDN:静态资源可能通过CDN提供,而CDN域名与主站域名不同,需要使用跨域访问来加载这些资源。
本地数据存储:使用本地存储监控数据,监控数据可选择是否上报至AOM或三方监控平台。 自定义指标采集:该配置在本实践中必须选择开启,否则将无法采集自定义指标。 插件配置完成后,单击“安装”。
云平台兼容性强:原生支持对接绝大多数的云平台,也包括各类第三方插件。 配置文件易用性高:Packer配置文件中模块职责清晰,参数定义简单直观,学习成本低。
迁移工具安装 Velero是开源的 Kubernetes 集群备份、迁移工具,集成了Restic工具对PV数据的备份能力,可以通过Velero工具将原集群中的K8s资源对象(如Deployment、Job、Service、ConfigMap等)和Pod挂载的持久卷数据保存备份上传至对象存储
节点:节点是指接入到平台的计算资源,包括虚拟机、物理机等。用户需确保节点资源充足,若节点资源不足,会导致创建应用等操作失败。 容器工作负载:容器工作负载指运行在CCE上的一组实例。CCE提供第三方应用托管功能,提供从部署到运维全生命周期管理。
Kubernetes版本策略 云容器引擎(Cloud Container Engine,简称CCE)提供高度可扩展的、高性能的企业级Kubernetes集群。由于社区定期发布Kubernetes版本,CCE会随之发布相应的集群公测和商用版本。
本地数据存储:此处选择使用本地存储监控数据,监控数据可选择是否对接AOM或三方监控平台。 自定义指标采集:该配置在本实践中必须选择开启,否则将无法采集容器网络扩展指标。 (可选)安装Grafana:选择安装Grafana后,可以使用图表查看指标。
注意,如果没有指定容器使用cpu的默认值,平台会自动配置CPU使用的默认值,即创建完成后自动添加default配置: ... spec: limits: - default: cpu: 800m defaultRequest: cpu: 800m