搜索_华为云

Tensorflow训练 - 云容器引擎 CCE
Tensorflow训练 - 云容器引擎 CCE

yaml文件，示例如下：该示例的主要功能是基于Tensorflow的分布式架构，利用卷积神经网络（CNN）中的ResNet50模型对随机生成的图像进行训练，每次训练32张图像（batch_size），共训练100次（step），记录每次训练过程中的性能（image/sec）。 apiVersion:

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
CCE节点故障检测 - 云容器引擎 CCE

例外场景：NPD无法检测所有PV（数据盘）丢失，导致VG（存储池）丢失的场景；此时依赖kubelet自动隔离该节点，其检测到VG（存储池）丢失并更新nodestatus.allocatable中对应资源为0，避免依赖存储池的Pod调度到该节点上。无法检测单个PV损坏；此时依赖R

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生可观测性插件
NVIDIA Container Toolkit容器逃逸漏洞公告（CVE-2024-0132） - 云容器引擎 CCE

1及更早版本的环境中，攻击者通过运行一个恶意镜像，可能实现容器逃逸，从而获得主机系统的访问权限。成功利用此漏洞可能会导致代码执行、拒绝服务、权限提升、信息泄露和数据篡改。判断方法如果集群未安装CCE AI套件（NVIDIA GPU）插件或插件版本低于2.0.0，则不涉及该漏洞。 CCE AI套件（NVIDIA

帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告
配置节点故障检测策略 - 云容器引擎 CCE

配置节点故障检测策略节点故障检查功能依赖node-problem-detector（简称：npd），npd是一款集群节点监控插件，插件实例会运行在每个节点上。本文介绍如何开启节点故障检测能力。前提条件集群中已安装CCE节点故障检测插件。开启节点故障检测登录CCE控制台，单击集群名称进入集群。

帮助中心 > 云容器引擎 CCE > 用户指南 > 节点 > 节点运维
插件概述 - 云容器引擎 CCE
插件概述 - 云容器引擎 CCE

略，可以根据您配置的策略规则，对集群中的容器标准输出日志、容器文件日志、节点日志及K8s事件日志进行采集与转发。 CCE节点故障检测 CCE节点故障检测插件（node-problem-detector，简称NPD）是一款监控集群节点异常事件的插件，以及对接第三方监控平台功能的组件

 帮助中心 > 云容器引擎 CCE > 用户指南 > 插件
CCE节点故障检测 - 云容器引擎 CCE

CCE节点故障检测插件介绍 CCE节点故障检测插件（node-problem-detector，简称NPD）是一款监控集群节点异常事件的插件，以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序，可从不同的守护进程中搜集节点问题并将其报告给apiserver。n

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
CCE节点故障检测插件版本发布记录 - 云容器引擎 CCE

CCE节点故障检测插件版本发布记录表1 CCE节点故障检测插件版本记录插件版本支持的集群版本更新特性社区版本 1.19.16 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 v1.31 支持CCE v1.31集群 0.8.10 1.19

帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 插件版本发布记录
功能总览 - 云容器引擎 CCE
功能总览 - 云容器引擎 CCE

CCE Standard集群、CCE Turbo集群支持 CCE基于Volcano调度器提供多元算力资源调度及任务调度的能力，面向机器学习、深度学习、生物信息学、基因组学及其他大数据应用场景提供完整的应用调度特性。 CCE支持CPU资源调度、GPU/NPU异构资源调度、在离线作业混合部署、CPU

帮助中心 > 云容器引擎 CCE > 功能总览
制作CCE节点自定义镜像 - 云容器引擎 CCE

制作CCE节点自定义镜像 CCE自定义镜像制作基于开源工具HashiCorp Packer(>=1.7.2)以及开源插件实现，并提供了cce-image-builder配置模板帮助您快速制作符合要求的自定义镜像。 Packer是一款可以创建自定义镜像的开源工具。Packer包含构

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 集群
创建集群时指定要安装的插件 - 云容器引擎 CCE

node-local-dns：表示安装节点本地域名解析加速插件。 volcano：表示安装Volcano调度器插件。 npd：表示安装CCE节点故障检测插件。 cie-collector：表示安装云原生监控插件。 log-agent：表示安装云原生日志采集插件。 virtual-kubelet：表示安装CCE突发弹性引擎（对接

 帮助中心 > 云容器引擎 CCE > API参考 > 附录
Kubeflow部署 - 云容器引擎 CCE
Kubeflow部署 - 云容器引擎 CCE

当前最流行的机器学习软件。目前Kubeflow 1.0版本已经发布，包含开发、构建、训练、部署四个环节，可全面支持企业用户的机器学习、深度学习完整使用过程。如下图所示：通过Kubeflow 1.0，用户可以使用Jupyter开发模型，然后使用fairing（SDK）等工具构

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
节点伸缩原理 - 云容器引擎 CCE

Autoscaler会每隔10s检查一次所有未调度的Pod，根据用户设置的策略，选择出一个符合要求的节点池进行扩容。 Autoscaler检测未调度Pod进行扩容时，使用的是与Kubernetes社区版本一致的调度算法进行模拟调度计算，若应用调度采用非内置kube-schedul

帮助中心 > 云容器引擎 CCE > 用户指南 > 弹性伸缩 > 节点弹性伸缩
集群可用但节点状态为“不可用”如何解决？ - 云容器引擎 CCE

当集群状态为“可用”，而集群中部分节点状态为“不可用”时，请参照本文提供的排查思路解决。节点不可用检测机制说明 Kubernetes 节点发送的心跳确定每个节点的可用性，并在检测到故障时采取行动。检测的机制和间隔时间详细说明请参见心跳。排查思路以下排查思路根据原因的出现概率进行排序，建

 帮助中心 > 云容器引擎 CCE > 常见问题 > 节点 > 节点运行
节点异常问题排查 - 云容器引擎 CCE

检查连接跟踪表是否满 FrequentKubeletRestart 检测kubelet频繁重启 FrequentDockerRestart 检测docker频繁重启 FrequentContainerdRestart 检测containerd频繁重启 CRIProblem 检查容器CRI组件状态

 帮助中心 > 云容器引擎 CCE > 常见问题 > 节点
通过告警中心一键配置告警 - 云容器引擎 CCE

1 节点磁盘慢IO 检测节点磁盘是否存在慢IO故障指标类云原生监控插件节点故障检测插件 problem_gauge{type="DiskSlow"} >= 1 节点进程资源不足检查系统关键资源PID进程资源是否充足指标类云原生监控插件节点故障检测插件 problem

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 告警中心
CCE节点NTP时间不同步如何解决？ - 云容器引擎 CCE

节点上的ntpd在长时间无法连接ntpserver等特殊场景下，可能导致偏移量过大，无法自动恢复。问题检测 CCE节点故障检测插件（npd）中已包含节点时间同步检查项，您可以在集群中安装该插件进行检测。详情请参见CCE节点故障检测。问题根因 EulerOS和CentOS类型的节点存在由NTP引起的已知问题，其他类型的节点不涉及该问题。

帮助中心 > 云容器引擎 CCE > 常见问题 > 节点 > 节点运行
在CCE集群中使用镜像服务的安全配置建议 - 云容器引擎 CCE

何解读和应用扫描结果中的修复建议，请参见镜像安全扫描。使用镜像签名并配置验签策略镜像验签是一种安全机制，用于验证容器镜像是否在创建后被篡改过。镜像的创建者可以对其内容进行签名，使用者则可以通过验证这个签名来确认镜像的完整性和来源。镜像验签是维护容器镜像安全性的关键措施之一。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 安全
节点上CCE Agent版本检查异常处理 - 云容器引擎 CCE

节点上CCE Agent版本检查异常处理检查项内容检测当前节点的CCE包管理组件cce-agent是否为最新版本。解决方案问题场景一：错误信息为“you cce-agent no update, please restart it”。该问题是由于cce-agent没有

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
NPD插件版本过低导致进程资源残留问题 - 云容器引擎 CCE

登录到CCE集群的ECS节点，查询存在大量npd进程。解决方案升级CCE节点故障检测（简称NPD）插件至最新版本。登录CCE控制台，进入集群，在左侧导航栏中选择“插件中心”，单击CCE节点故障检测下的“升级”。如果CCE节点故障检测插件版本已经为1.13.6及以上版本，则不需要进行升级操作。

帮助中心 > 云容器引擎 CCE > 常见问题 > 模板插件
工作负载推荐配置 - 云容器引擎 CCE

声明Pod的资源（Request和Limit）容器的Request及Limit需要根据实际的业务场景进行灵活的配置，Request的值会用于提供给调度器，调度器会检测每个节点可用于分配的资源（节点可分配资源=节点资源总量-节点已分配资源），同时记录每个节点已经被分配的资源（节点上所有Pod中定义的容器R

帮助中心 > 云容器引擎 CCE > 最佳实践 > 容器

总条数： 128

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Tensorflow训练 - 云容器引擎 CCE

CCE节点故障检测 - 云容器引擎 CCE

NVIDIA Container Toolkit容器逃逸漏洞公告（CVE-2024-0132） - 云容器引擎 CCE

配置节点故障检测策略 - 云容器引擎 CCE

插件概述 - 云容器引擎 CCE

CCE节点故障检测 - 云容器引擎 CCE

CCE节点故障检测插件版本发布记录 - 云容器引擎 CCE

功能总览 - 云容器引擎 CCE

制作CCE节点自定义镜像 - 云容器引擎 CCE

创建集群时指定要安装的插件 - 云容器引擎 CCE

Kubeflow部署 - 云容器引擎 CCE

节点伸缩原理 - 云容器引擎 CCE

集群可用但节点状态为“不可用”如何解决？ - 云容器引擎 CCE

节点异常问题排查 - 云容器引擎 CCE

通过告警中心一键配置告警 - 云容器引擎 CCE

CCE节点NTP时间不同步如何解决？ - 云容器引擎 CCE

在CCE集群中使用镜像服务的安全配置建议 - 云容器引擎 CCE

节点上CCE Agent版本检查异常处理 - 云容器引擎 CCE

NPD插件版本过低导致进程资源残留问题 - 云容器引擎 CCE

工作负载推荐配置 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线