检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
停用的内存页面(Retired Pages) 指标名称 指标类型 单位 说明 DCGM_FI_DEV_RETIRED_SBE Gauge - 表示由单bit错误而停用的页面。 DCGM_FI_DEV_RETIRED_DBE Gauge - 表示用双bit错误而停用的页面。 关于DCGM更多指标详情请参见Field
tilization(GPU显存使用率)作为伸缩指标,其余HPA参数的设置请根据实际需求进行设置,详情请参见创建HPA策略。 返回“策略”页面,查看HPA策略已创建成功。 图5 HPA策略创建成功 父主题: GPU调度
通过控制台使用本地临时卷 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中选择“工作负载”,在右侧选择“无状态负载”页签。 单击页面右上角“创建工作负载”,在“容器配置”中选择“数据存储”页签,并单击“添加存储卷 > 本地临时卷(EmptyDir)”。 本文主要为您介绍
没有拉取。 解决方法 有如下两种方式可解决该问题。 使用高版本Docker(>= docker v1.11)重新打包镜像。 手动下载镜像 登录节点。 执行如下命令手动下载镜像。 ctr -n k8s.io images pull --user u:p images 使用新下载的镜像重新创建工作负载。
对于获取用户Token接口,如果调用后返回状态码为“201”,则表示请求成功。 响应消息头 对应请求消息头,响应同样也有消息头,如“Content-type”。 对于获取用户Token接口,返回如图1所示的消息头,其中“x-subject-token”就是需要获取的用户Token
k8s.io) 可能原因 执行kubectl时出现Error from server (ServiceUnavailable)时,表示未能连接到集群,需要检查kubectl到集群Master节点的网络是否能够连通。 解决方法 如果是在集群外部执行kubectl,请检查集群是否绑定
集群其它节点资源不足时将不会触发非完全空闲节点缩容。 节点开启缩容保护时将不会触发节点缩容。如需开启或关闭节点缩容保护,请前往“节点管理 > 节点”页面,单击节点操作列的“更多 > 开启/关闭节点缩容保护”按钮操作。 节点上存在指定不缩容标记的Pod时,该节点将不会被缩容。 节点上的部分容
由于业务容器运行时共享节点的内核及底层调用,为保证兼容性,建议节点的操作系统选择与最终业务容器镜像相同或接近的Linux发行版本。 安全加固 等保加固会对身份鉴别、访问控制、安全审计、入侵防范、恶意代码防范进行检查并加固。详情请参见Huawei Cloud EulerOS 2.0等保2.0三级版镜像概述。
云原生混部资源超卖 - v1.25 v1.25.4-r0及以上 云原生混部资源超卖 - v.1.25.4-r0以前的版本已经使用kubelet超卖,升级至v1.25.4-r0及以上版本 存量节点池:kubelet超卖 新建节点池:云原生混部资源超卖 对于存量的节点池,推荐将kubelet超
过小的数据盘容量可能会频繁出现磁盘空间不足,导致镜像拉取失败的问题。如果节点上需要频繁拉取不同的镜像,不建议将数据盘容量调小。 集群升级预检查会检查数据盘使用量是否超过95%,磁盘压力较大时可能会影响集群升级。 Device Mapper类型比较容易出现空间不足的问题,建议使用OverlayFS类型操作系统,或者选择较大数据盘。
但在您使用集群前,还需要充分理解云容器引擎的安全责任边界,华为云无法限制您在服务托管范围外的行为,您需要为这部分的行为承担安全责任。详情请参见责任共担。 如何进行安全加固 登录CCE控制台。 在左侧导航栏中选择“集群管理”,单击要创建节点的集群进入集群控制台。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节
Map<String,String> 插件注解,由key/value组成 安装:固定值为{"addon.install/type":"install"} 升级:固定值为{"addon.upgrade/type":"upgrade"} updateTimestamp String 更新时间 creationTimestamp
由于业务容器运行时共享节点的内核及底层调用,为保证兼容性,建议节点的操作系统选择与最终业务容器镜像相同或接近的Linux发行版本。 安全加固 等保加固会对身份鉴别、访问控制、安全审计、入侵防范、恶意代码防范进行检查并加固。详情请参见Huawei Cloud EulerOS 2.0等保2.0三级版镜像概述。
本文以本地持久卷举例,修复本地临时卷时,使用相应的卷组即可。 本文提供的指导仅能恢复误卸载磁盘后存储池页面显示“不可用”状态,修复后可重新导入持久卷或临时卷,但无法恢复原有数据。 问题现象 当用户错误卸载存储池的磁盘时,会导致该节点存储池状态不可用。 问题定位 使用kubectl命令查看nodelocalvolumes资源:
下面以CCE集群为例,介绍如何查看指定资源的账单。 登录CCE控制台,单击集群名称进入集群。 在集群总览页,复制集群ID。 图1 获取资源ID 进入“流水和明细账单”页面。 选择“明细账单”,在筛选条件中选择“资源ID”,并输入步骤2复制的资源ID,单击图标即可搜索该资源的账单。 图2 查询资源账单 这里设
设置环境变量。 单击“新增变量”,逐条增加环境变量,依次“配置类型”、“变量名称”和“变量/变量引用”。 单击“批量编辑自定义变量”,在编辑页面,按行输入自定义变量,格式为“变量名称=变量/变量引用”。 图1 设置环境变量 YAML样例 apiVersion: apps/v1 kind:
配置装箱调度策略 安装Volcano后,Binpack策略默认生效。如果默认配置无法达到您降低资源碎片的目标,可以通过“配置中心 > 调度配置”页面自定义Binpack策略权重和各资源维度权重值,增加或降低Binpack策略在整体调度中的影响力。 登录CCE控制台。 单击集群名称进入集
如果设置为Always ,则每次容器启动或者重启时,都会从远程仓库拉取镜像。 如果省略imagePullPolicy,策略默认为Always。 如果设置为IfNotPreset,有下面两种情况: 当本地不存在所需的镜像时,会从远程仓库中拉取。 如果需要的镜像和本地镜像内容相同,只不过
ubectl连接集群。 步骤一:安装云原生监控插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”。 在“插件中心”页面右侧找到云原生监控插件,单击“安装”。 建议您关注以下配置,其他配置可按需进行设置。详情请参见云原生监控插件。 本地数据存储:使用本地存储
登录集群查看拉取镜像失败原因,重新部署业务负载 登录AOM 2.0控制台。 在左侧导航栏选择“告警中心 > 告警规则”,单击“创建告警规则”。 根据页面提示填写基本信息后,设置告警规则。关键参数如下: 详细参数说明请参见创建事件类告警规则。 规则类型:选择“事件告警规则”。 事件类型:选择“系统事件”。