检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点上CCE Agent版本检查异常处理 检查项内容 检测当前节点的CCE包管理组件cce-agent是否为最新版本。 解决方案 问题场景一: 错误信息为“you cce-agent no update, please restart it”。 该问题是由于cce-agent没有
在EVS控制台扩容成功后,仅扩大了云硬盘的存储容量,还需要执行后续步骤扩容逻辑卷和文件系统。 登录CCE控制台,进入集群,在左侧选择“节点管理”,单击节点后的“同步云服务器”。 登录目标节点。 使用lsblk命令查看节点块设备信息。 这里存在两种情况,根据容器存储Rootfs而不同。 Overl
application/json application/json;charset=utf-8 application/x-pem-file multipart/form-data(注:存在FormData参数时使用) 默认取值: 不涉及 X-Auth-Token 是 String 参数解释:
表示容器在主机指示后正确关闭。一般来说,退出码143不需要进行故障排除。 255 状态码超出范围 表示容器退出状态码超出范围。例如,可能是设置异常退出使用exit(-1)导致的,而-1将会自动转换成255。 出现该异常时无法判断原因,需要进一步通过容器日志定位原因。 Linux标准中断信号
application/json application/json;charset=utf-8 application/x-pem-file multipart/form-data(注:存在FormData参数时使用) 默认取值: 不涉及 X-Auth-Token 是 String 参数解释:
例如,缓存服务经常受限于内存大小,而且可以将不常用的数据转移到比内存慢的存储中,对总体性能的影响并不大。另有些应用程序需要以文件形式注入的只读数据,比如配置数据或密钥。 Kubernetes中的临时卷(Ephemeral Volume),就是为此类场景设计的。临时卷会遵从Pod的生命周期,与 Pod一起创建和删除。
great security risks. It is recommended that the AK and SK be stored in ciphertext in configuration files or environment variables and decrypted
适配CCE v1.27集群 1.2.6 v1.19 v1.21 v1.23 v1.25 支持NPU驱动自动安装 1.2.5 v1.19 v1.21 v1.23 v1.25 支持NPU驱动自动安装 1.2.4 v1.19 v1.21 v1.23 v1.25 适配CCE v1.25集群 1.2
服务(Service) 服务概述 集群内访问(ClusterIP) 节点访问(NodePort) 负载均衡(LoadBalancer) DNAT网关(DNAT) Headless Service 父主题: 网络
ACTIVE)情况下,更高的占用率表示更有效的GPU使用率。 DCGM_FI_PROF_PIPE_TENSOR_ACTIVE Gauge % 表示Tensor(HMMA/IMMA) Pipe处于Active状态的周期分数。 该值表示一个时间间隔内的平均值,而不是瞬时值。 较高的值表示Tensor
使用节点伸缩功能前,需要安装CCE集群弹性引擎插件,插件版本要求1.13.8及以上。 Cluster Autoscaler工作原理 Cluster Autoscaler主要流程包括两部分: 扩容流程: Autoscaler会每隔10s检查一次所有未调度的Pod,根据用户设置的策略,选择出一个符合要求的节点池进行扩容。
错误信息为“xx file permission has been changed!”。 解决方案: CCE使用/var/paas目录进行基本的节点管理活动并存储属主和属组均为paas的文件数据。 当前集群升级流程会将/var/paas路径下的文件的属主和属组均重置为paas。 请您参考下
cluster:在集群的工作节点上部署驱动程序。 client:(默认值)作为外部客户端在本地部署驱动程序。 --name:作业名称,集群中的Pod将以此开头。 --class:应用程序,例如org.apache.spark.examples.SparkPi。 --conf:Spark配置参数,使用键
的优点;同时支持基于CRD的日志采集策略配置,更加灵活易用。详情请参见云原生日志采集插件。 监控与日志 AOM:应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,实时监控您的应用及相关云资源,分析应
application/json application/json;charset=utf-8 application/x-pem-file multipart/form-data(注:存在FormData参数时使用) 默认取值: 不涉及 X-Auth-Token 是 String 参数解释:
基于用户提供的信息,该集群被识别为核心重点保障的生产集群。 正在或即将进行其他运维任务,例如Master节点3AZ改造等。 集群中存在容器引擎为Docker但OS与节点池配置不同的节点,您可以重置这部分节点后再次执行升级前检查。 请根据界面日志联系技术支持人员了解限制原因并申请解除升级限制。 父主题: 升级前检查异常问题排查
11及以上时,插件提供number_of_reserved_disks参数,该参数可以设置节点上预留的挂盘数,预留出部分盘位供用户自定义挂载云硬盘使用。注意,修改该参数将对集群中所有节点生效。 设置number_of_reserved_disks参数后,节点剩余可挂载的云硬盘数量计算如下:
默认节点池不支持扩缩容,请通过创建节点添加。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点池”页签。 单击节点池名称后的“扩缩容”。 在弹出的“节点池扩缩容”窗口中,设置扩缩容参数。 扩缩容:选择“扩容节点”或“缩容节点”。 扩容/缩容规格:使用选择的规格扩容或缩容节点。
v1.29 v1.30 支持节点池粒度配置XGPU 支持GPU渲染场景 支持v1.30集群 2.6.4 v1.28 v1.29 更新GPU卡逻辑隔离逻辑 2.6.1 v1.28 v1.29 升级GPU插件基础镜像 2.5.6 v1.28 修复安装驱动的问题 2.5.4 v1.28 支持v1
作负载运行的节点可访问对应的企业版镜像仓库实例。 通过界面操作 创建SWR企业版镜像仓库的密钥。 单击集群名称进入集群,在左侧导航栏选择“配置与密钥”,在右侧选择“密钥”页签,单击右上角“创建密钥”,密钥类型必须选择为kubernetes.io/dockerconfigjson。详细操作请参见创建密钥。