检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何配置Pod使用GPU节点的加速能力? 问题描述 我已经购买了GPU节点,但运行速度还是很慢,请问如何配置Pod使用GPU节点的加速能力。 解答 方案1: 建议您将集群中GPU节点的不可调度的污点去掉,以便GPU插件驱动能够正常安装,同时您需要安装高版本的GPU驱动。 如果您的集群中有
的兴起,DevOps重要性日益显著。 方案架构 该方案使用Gitlab和Jenkins来实现容器应用的自动化构建和持续部署,其中Gitlab提供了源码管理和版本控制的功能,而Jenkins则负责进行容器应用的构建和部署。并且为了保证生产环境和测试环境互不影响,该方案使用了两个独立
rk”。 单击CCE控制台中的“操作记录”,查看集群操作记录详情。 在浏览器Console的“Filter”栏里输入“jobs”,过滤出jobs列表,单击该名称并选择“Preview”页签,在左侧列表选择本次操作对应的job,其中uid字段即为job的uid。 图5 获取job_id
在CCE集群中部署使用Kubeflow Kubeflow部署 Tensorflow训练 使用Kubeflow和Volcano实现典型AI训练任务 父主题: 批量计算
IAM用户无法使用调用API 问题现象 使用IAM用户调用API时,出现以下报错: "code":403,"message":"This user only supports console access, not programmatic access." 该错误表示IAM用户没有编程访问权限。
如果当前资源配额限制无法满足使用需要,您可以申请扩大配额。 怎样查看我的配额? 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 在页面右上角,选择“资源 > 我的配额”。 系统进入“服务配额”页面。 图1 我的配额 您可以在“服务配额”页面,查看各项资源的总配额、及使用情况。 如果当
d里的存储卷是共享的,所以Init Container里产生的数据可以被主容器使用到。 Init Container可以在多种K8s资源里被使用到如Deployment、DaemonSet、Job等,但归根结底都是在Pod启动时,在主容器启动前执行,做初始化工作。 使用场景 部署
文件系统类型,请根据使用的存储类型填写: ext4: EVS云硬盘存储,详情可参见使用云硬盘存储卷。 nfs:SFS弹性文件存储,详情可参见使用文件存储卷。 obs:OBS对象存储,详情可参见使用对象存储卷。 efs:SFS Turbo极速文件存储,详情可参见使用极速文件存储卷。 options
行验证。 通过kubectl命令行使用已有文件存储 您可以根据不同的使用场景选择不同的创建方式。 使用已有通用文件系统(SFS 3.0) 使用已有通用文件系统(SFS 3.0)的子目录 使用已有SFS容量型存储 使用kubectl连接集群。 创建PV。 创建pv-sfs.yaml文件。
若弹性云服务器状态为“已删除”:请在CCE中删除对应节点,再重新创建节点。 若弹性云服务器状态为“关机”或“冻结”:请先恢复弹性云服务器,约3分钟后集群节点可自行恢复。 若弹性云服务器出现故障:请先重启弹性云服务器,恢复故障。 若弹性云服务器状态为“可用”:请参考排查项七:内部
netes提供的资源管理、应用编排、运维监控能力。 Kubernetes存在的问题 Kubeflow在调度环境使用的是Kubernetes的默认调度器。而Kubernetes默认调度器最初主要是为长期运行的服务设计的,对于AI、大数据等批量和弹性调度方面还有很多的不足。主要存在以下问题:
在CCE集群中使用工作负载Identity的安全配置建议 工作负载Identity允许集群中的工作负载模拟IAM用户来访问云服务,从而无需直接使用IAM账号的AK/SK等信息,降低安全风险。 本文档介绍如何在CCE中使用工作负载Identity。 约束与限制 支持1.19.16及以上版本集群。
表NPU卡的第0张卡)信息的Pod。最终输出了Pod所在的命名空间和Pod名称。查询结果如下: 代表default命名空间下名为test-564f996c77-fws6z的Pod使用了192.168.0.138节点上的第0张卡。 在使用其他卡时,Ascend310-0的Ascend310应该修改为对应卡名称。
按需计费 按资源的实际使用时长计费,可以随时开通/删除资源。 访问模式 云硬盘类型的存储卷仅支持ReadWriteOnce,表示存储卷可以被一个节点以读写方式挂载,详情请参见存储卷访问模式。 加密 选择底层存储是否加密,使用加密时需要选择使用的加密密钥。使用前请确认云硬盘所在区
部署应用并转换指标 如上所述的nginx:exporter提供的监控数据,其数据格式并不满足Prometheus的要求,需要将其转换成Prometheus需要的格式,可以使用nginx-prometheus-exporter来转换Nginx的指标,如下所示。 图2 使用exporter转换数据格式
)。 云硬盘的状态可用,且未被其他资源使用。 云硬盘的可用区需要与集群节点的可用区相同,否则无法挂载将导致实例启动失败。 若云硬盘加密,所使用的密钥状态需可用。 仅支持选择集群所属企业项目和default企业项目下的云硬盘。 不支持使用已进行分区的云硬盘。 仅支持使用ext4类型的云硬盘。
定到特定的用户、用户组或ServiceAccount上。如下图所示。 图1 角色绑定 上图中的用户在CCE中可以是IAM用户或用户组,通过这样的绑定设置,就可以非常方便地实现命名空间内容资源的权限控制。 下面将通过给一个IAM用户user-example配置查看Pod的权限(该用
响容器启动的文件,否则文件会被替换,导致容器启动异常,工作负载创建失败。 须知: 挂载高危目录的情况下 ,建议使用低权限账号启动,否则可能会造成宿主机高危文件被破坏。 子路径 请输入存储卷的子路径,将存储卷中的某个路径挂载至容器,可以实现在单一Pod中使用同一个存储卷的不同文件夹
亲和策略的节点,否则插件实例将无法运行。 容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment 实例的驱逐策略。
虚拟网关 虚拟接口关联的虚拟网关。 VLAN 虚拟接口的VLAN。 标准专线的虚拟接口的VLAN由用户配置 。 托管专线的虚拟接口的VLAN会使用运营商或合作伙伴为托管专线分配的VLAN,用户无需配置。 带宽 虚拟接口带宽,单位为Mbit/s。虚拟接口带宽不可以超过物理连接带宽。