检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开启驱动选择后,NPU插件启动时将自动根据对应机型的驱动配置安装驱动,驱动维护更灵活。推荐使用默认的驱动版本,您也可以选择“自定义驱动”并填写完整的驱动地址。 支持的NPU卡类型和对应的操作系统规格如下: NPU卡类型 支持的操作系统 D310 EulerOS 2.5 x86、CentOS
<名称的复数形式>。例如,/apis/monitoring.coreos.com/v1/servicemonitors。 配置建议: 创建新的 自定义资源时,Kubernetes API 服务器会为您所指定的每个版本生成一个新的 RESTful 资源路径。 自定义资源名称的单数形式
模板(Helm Chart) 模板概述 通过模板部署应用 Helm v2与Helm v3的差异及适配方案 通过Helm v2客户端部署应用 通过Helm v3客户端部署应用 Helm v2 Release转换成Helm v3 Release
通过本课程了解云原生应用场景及对应的华为云方案 4小时 云原生应用架构介绍 人人学云容器 认识华为云容器从入门到精通 1小时 人人学云容器 容器高性能批量计算 了解Volcano的总体架构,设计原理及典型场景应用 5小时 六节课学懂容器高性能批量计算 Kubernetes原理剖析与实践
只有发起请求的用户被授予授权项所对应的策略,该用户才能成功调用该接口。例如,用户要调用接口来查询云服务器列表,那么这个IAM用户被授予的策略中必须包含允许“ecs:servers:list”的授权项,该接口才能调用成功。 IAM支持的授权项 策略包含系统策略和自定义策略,如果系统
在弹出的“迁入节点”窗口中,勾选满足以下条件的节点。 待迁入节点与当前节点池属于相同的虚拟私有云和子网。 待迁入节点与当前节点池属于相同的企业项目。 待迁入节点与当前节点池属于相同的云服务器组。 待迁入节点的计费模式需要与当前节点池支持的计费模式相同。 待迁入节点需要属于DefaultPool节点池,且状态为“运行中”。
法运行。 容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment 实例的驱逐策略。 插件会对实例添加针对node
Controller内核参数进行优化。 优化后的value.yaml配置文件如下: controller: image: repository: swr.cn-east-3.myhuaweicloud.com/hwofficial/nginx-ingress #controller镜像地址,请根据集群所在区域进行替换
使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
2(20%),可能有如下情况: 在整个时间间隔内,有20%的SM的Tensor Core以100%的利用率运行。 在整个时间间隔内,有100%的SM的Tensor Core以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core以100%利用率运行。 其他组合模式。
String 插件的版本 driver_version 是 String 插件安装驱动时,插件里负责安装驱动的Pod的镜像tag,一般与device_version相同 obs_url 是 String 当从默认驱动地址中下载GPU驱动时,该值为GPU的驱动地址 swr_addr
操作系统版本支持机制 同步机制 云容器引擎CCE发布的集群节点组件会随CCE集群版本发布定期更新。 操作系统重大漏洞修复:跟随集群补丁升级策略发布。 集群版本与操作系统对应关系 如下为当前已经发布的集群版本与操作系统版本的对应关系,请参考: 表1 弹性云服务器-虚拟机节点操作系统 操作系统 集群版本
常用告警和告警查看。 图1 告警中心架构 告警中心 基于AOM服务的告警能力实现,提供集群内的告警快速检索、告警快速配置的能力。用户可以通过告警中心一键配置常用的告警规则。 AOM服务 华为云应用运维管理服务,是云上应用的一站式立体化运维管理平台,是云上监控、告警的基础。 SMN服务
2357Mi 109% 问题根因 出现该问题的原因是kubectl top node是调用kubelet的metrics API来获取数据的,因此看到的是节点上已使用的资源总和除以可分配的所有资源。 社区issue链接:https://github.com
用于服务账户令牌的身份验证组件,会验证API请求中使用的令牌是否指定了合法的受众。 配置建议:根据集群服务间通信的需求,精确配置受众列表。此举确保服务账户令牌仅在授权的服务间进行认证使用,提升安全性。 说明: 不正确的配置可能导致服务间认证通信失败,或令牌的验证过程出现错误。
Request和Used的资源,应该根据哪个来估算成本,进行计算Pod的费用,Pod的CPU、内存使用量等资源指标是动态变化的,如何做到准确的估算? 在计算成本时的Pod使用量取值为Pod申请量(Request)和实际使用量(used)中的最大值。基于普罗监控数据,可以清晰识别分钟级别的应用资源,进行成本计算。
漏洞影响 攻击者利用runc的systemd cgroup特性进行攻击,可通过在Pod注解中注入恶意的systemd属性(如:ExecStartPre、ExecStart、ExecReload),进而在宿主机中执行任意操作。 CCE集群未使用runc的systemd cgroup特性,因此不受此漏洞影响。
Volcano调度概述 使用Volcano调度工作负载 资源利用率优化调度 业务优先级保障调度 AI任务性能增强调度 NUMA亲和性调度 应用扩缩容优先级策略 父主题: 调度
volumeID 文件存储的ID。 获取方法:在CCE控制台,单击左侧栏目树中的“资源管理-存储管理”,在“文件存储卷”页签下单击PVC的名称,在PVC详情页中复制“PVC UID”后的内容即可。 storage 文件存储的大小。 storageClassName 文件存储支持的读写方式,当前支持nfs-rw、nfs-ro。
调度概述 CCE支持不同类型的资源调度及任务调度等,可提升应用的性能和集群整体资源的利用率。本文介绍CPU资源调度、GPU/NPU异构资源调度、Volcano调度的主要功能。 CPU调度 CCE提供CPU管理策略为应用分配完整的CPU物理核,提升应用性能,减少应用的调度延迟。 功能 描述