检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。
通过配置kubeconfig文件实现集群权限精细化管理 问题场景 CCE默认的给用户的kubeconfig文件为cluster-admin角色的用户,相当于root权限,对于一些用户来说权限太大,不方便精细化管理。 目标 对集群资源进行精细化管理,让特定用户只能拥有部分权限(如:增、查、改)。
管理节点弹性策略 操作场景 节点弹性策略创建完成后,可对创建的策略进行删除、编辑、停用、启用、克隆等操作。 查看节点弹性策略 您可以查看节点弹性策略的关联节点池、执行规则和伸缩历史,参照界面中的提示有针对性的解决异常问题。 在CCE控制台,单击集群名称进入集群。 单击左侧导航栏的
管理工作负载 操作场景 工作负载创建后,您可以对其执行升级、编辑YAML、日志、监控、回退、删除等操作。 表1 工作负载/任务管理 操作 描述 监控 可以通过CCE控制台查看工作负载和容器组的CPU和内存占用情况,以确定需要的资源规格。 日志 可查看工作负载的日志信息。 升级 可
API URL说明 集群管理、节点管理、节点池管理、配额管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 Kubernetes API、存储管理、插件管理的URL格式为:https://{clusterid}.Endpoi
配置管理-容器引擎配置 单容器可用数据空间 单容器可用数据空间 参数名 取值范围 默认值 是否允许修改 作用范围 devmapper-base-size 大于等于0 0 支持初始化时配置,不支持后续修改 CCE Standard/CCE Turbo 当前仅devicemapper场景支持限制,overlayfs不支持
ecret”的Secret,再将Volume挂载到容器的“/tmp”路径下。Pod创建成功后,在容器的“/tmp”路径下,就有两个文件key1和key2。 apiVersion: v1 kind: Pod metadata: name: nginx spec: containers:
lume挂载到容器的“/tmp”路径下。Pod创建成功后,在容器的“/tmp”路径下,就有两个文件property_1和property_2,它们的值分别为“Hello”和“World”。 apiVersion: v1 kind: Pod metadata: name: nginx
存储管理-Flexvolume(已弃用) 存储Flexvolume概述 1.15集群如何从Flexvolume存储类型迁移到CSI Everest存储类型 云硬盘存储卷 极速文件存储卷 对象存储卷 文件存储卷
使用ASM实现灰度发布和蓝绿发布 应用服务网格(Application Service Mesh,简称ASM)是基于开源Istio推出的服务网格平台,它深度、无缝对接了企业级Kubernetes集群服务云容器引擎(CCE),在易用性、可靠性、可视化等方面进行了一系列增强,可为客户提供开箱即用的上手体验。 为
什么是容器 容器是操作系统内核自带能力,是基于Linux内核实现的轻量级高性能资源隔离机制。 云容器引擎CCE是基于开源Kubernetes的企业级容器服务,提供高可靠高性能的企业级容器应用管理服务,支持Kubernetes社区原生应用和工具,简化云上自动化容器运行环境搭建。 为什么需要使用容器
am,导致没有拉取。 解决方法 有如下两种方式可解决该问题。 使用高版本Docker(>= docker v1.11)重新打包镜像。 手动下载镜像 登录节点。 执行如下命令手动下载镜像。 ctr -n k8s.io images pull --user u:p images 使用新下载的镜像重新创建工作负载。
登录节点,查看/usr/lib/systemd/system/docker.service文件。 CentOS/EulerOS系统: docker节点: cat /usr/lib/systemd/system/docker.service containerd节点: cat /us
describe pod命令查看Pod重启原因为OOM。查询该fluent-bit所在节点存在大量被驱逐的Pod,资源被占用导致出现OOM。 解决方案:删除节点上被驱逐的Pod。 节点OS为Ubuntu 18.04时出现日志无法采集 排查方法:重启当前节点的fluent-bit pod,查看
容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment 实例的驱逐策略。 插件会对实例添加针对node.kubernetes
请参见编写高效的Dockerfile。 由于运营商网络原因,拉取Docker Hub镜像可能需要很长时间,甚至可能因超时而下载失败,建议参考设置镜像加速器解决。 操作步骤 以root用户登录到安装有Docker的服务器上。 编写Dockerfile文件。 vi Dockerfile
Deployment可以包含一个或多个Pod,每个Pod的角色相同,所以系统会自动为Deployment的多个Pod分发请求。 StatefulSet StatefulSet是用来管理有状态应用的对象。和Deployment相同的是,StatefulSet管理了基于相同容器定义的
Volcano是一个基于Kubernetes的批处理平台,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力,通过接入AI、大数据、基因、渲染等诸多行业计算框架服务终端用户,并针对计算型应用提供了作业调度、作业管理、队列管理等多项功能。 一般情况下,Kuberne
nt两个配置参数定期回收未在使用中的镜像。如果在节点上使用docker或crictl命令行启动容器,那么在容器停止后,它将处于退出状态,但并未完全删除,这意味着该容器仍然引用着容器镜像。由于kubelet无法感知到非Pod产生的容器,也就无法感知到该容器镜像被引用,因此当kube
Grafana 插件简介 Grafana是一款开源的数据可视化和监控平台,可以为您提供丰富的图表和面板,用于实时监控、分析和可视化各种指标和数据源。 安装插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”,在右侧找到Grafana,单击“安装”。 设置插件