检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
tainer_cpu_usage_core_per_second的指标用来标识容器每秒使用CPU核心数。关于Prometheus指标的更多信息,请参见metric_type。 步骤一:安装云原生监控插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”。 在“
Packer作为镜像制作的工具有如下优势: 构建过程自动化:创建镜像的过程变成可以通过Packer配置文件的形式固化,支持自动化构建。 云平台兼容性强:原生支持对接绝大多数的云平台,也包括各类第三方插件。 配置文件易用性高:Packer配置文件中模块职责清晰,参数定义简单直观,学习成本低。 镜像构建
问题场景一: 1.25及以上集群中的service存在废弃的annotation:tolerate-unready-endpoints 报错日志信息如下: some check failed in cluster upgrade: this cluster has deprecated
上传模板失败如何解决? 问题现象 上传模板时出现“请求失败,请稍后重试”的错误,错误码为SVCSTG.CCECAM.4000121,错误信息提示“Package name and version must be valid and same with chart name and
创建集群时返回关联的任务ID,可通过任务ID查询创建集群的附属任务信息; 删除集群或者删除集群失败时返回关联的任务ID,此字段非空时,可通过任务ID查询删除集群的附属任务信息。 约束限制: 不涉及 取值范围: 不涉及 说明: 任务信息具有一定时效性,仅用于短期跟踪任务进度,请勿用于集群状态判断等额外场景。
NPU调度可以指定Pod申请NPU的数量,为工作负载提供NPU资源。 NPU调度 Volcano调度 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。
-aggregation/ 解决方法 可以采用如下两种方法解决: 修复报错信息中的APIService对象,使其能够正常访问,如果是插件中的APIService,请确保插件的Pod正常运行。 删除报错信息中的APIService对象,如果是插件中的APIService,可从页面卸载该插件。
本节介绍一个Kubeflow官方的Tensorflow训练范例,您可参考TensorFlow Training (TFJob)获取更详细的信息。 创建MNIST示例 部署TFJob资源以开始训练。 创建tf-mnist.yaml文件,示例如下: apiVersion: "kubeflow
存储挂载到应用实例。 目前对象存储迁移服务OMS支持亚马逊云(中国)、阿里云、微软云、百度云、华为云、金山云、优刻得、青云、七牛云、腾讯云平台的对象存储数据迁移到华为云对象存储服务OBS。 父主题: 实施步骤
基本概念 集群:集群是计算资源的集合,包含一组节点资源,容器运行在节点上。在创建容器应用前,您需要存在一个可用集群。 节点:节点是指接入到平台的计算资源,包括虚拟机、物理机等。用户需确保节点资源充足,若节点资源不足,会导致创建应用等操作失败。 容器工作负载:容器工作负载指运行在C
网络概述 关于集群的网络,可以从如下两个角度进行了解: 集群网络是什么样的:集群由多个节点构成,集群中又运行着Pod(容器),每个Pod都需要访问,节点与节点、节点与Pod、Pod与Pod都需要访问。那集群中包含有哪些网络,各自的用处是什么,具体请参见集群网络构成。 集群中的Po
建议您关注以下配置,其他配置可按需进行设置。详情请参见云原生监控插件。 本地数据存储:使用本地存储监控数据,监控数据可选择是否上报至AOM或三方监控平台。 自定义指标采集:该配置在本实践中必须选择开启,否则将无法采集自定义指标。 插件配置完成后,单击“安装”。 步骤二:获取Prometheus监控数据
metadata AddonMetadata object 基本信息,为集合类的元素类型,包含一组由不同名称定义的属性 spec Templatespec object spec是集合类的元素类型,内容为插件模板具体信息,插件模板的详细描述主体部分都在spec中给出 表5 AddonMetadata
10:36 华为云云原生FinOps解决方案,释放云原生最大价值 CCE云原生观测中心 介绍CCE云原生观测中心 10:36 新一代云原生可观测平台 入门操作 容器基础 了解容器基础使用方法 19:38 1 了解容器基础使用方法 Kubernetes集群架构 介绍Kubernetes集群架构
检查项内容 检查节点中是否存在升级所必须的命令。 解决方案 该问题一般由于节点上缺少集群升级流程中使用到的关键命令,可能会导致集群升级失败。 报错信息如下: __error_code#ErrorCommandNotExist#chage command is not exists#__
获取指定集群升级引导任务详情 功能介绍 该API用于通过升级引导任务ID获取任务的详细信息。 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/clusters/{cluster_id}/operation/upgrad
GPU节点使用nvidia驱动启动容器排查思路 集群中的节点是否有资源调度失败的事件? 问题现象: 节点运行正常且有GPU资源,但报如下失败信息: 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。
修改节点日志缓存内存占用量上限RuntimeMaxUse Journald是Linux中的日志系统,负责把日志信息写入二进制文件,并默认使用/run/log/journal目录作为日志缓存目录。Journald的配置文件位于节点/etc/systemd/journald.conf
节点CCE Agent版本检查异常处理 检查项内容 检测当前节点的CCE包管理组件cce-agent是否为最新版本。 解决方案 问题场景一: 错误信息为“you cce-agent no update, please restart it”。 该问题为cce-agent无需更新,但是没有
节点关键目录文件权限检查异常处理 检查项内容 检查CCE使用的目录/var/paas内文件的属主和属组是否都为paas。 解决方案 问题场景一: 错误信息为“xx file permission has been changed!”。 解决方案: CCE使用/var/paas目录进行基本的节