检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Kubeflow部署 Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一
GPU视图 GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。 指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量
在CTS事件列表查看云审计事件 操作场景 用户进入云审计服务创建管理类追踪器后,系统开始记录云服务资源的操作。在创建数据类追踪器后,系统开始记录用户对OBS桶中数据的操作。云审计服务管理控制台会保存最近7天的操作记录。 本节介绍如何在云审计服务管理控制台查看或导出最近7天的操作记录。
公平调度(DRF) DRF(Dominant Resource Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。
是否使用包周期集群删除参数预置模式(仅对包周期集群生效)。 使用该参数,集群不执行真正的删除,仅将本次请求的全部query参数都预置到集群数据库中,用于包周期集群退订时识别用户要删除的资源。 允许重复执行,覆盖预置的删除参数。 约束限制: 需要和其他删除选项参数一起使用,未指定的参数,则使用默认值
专属存储概述 专属分布式存储服务(Dedicated Distributed Storage Service,DSS)可以为您提供独享的物理存储资源,通过数据冗余和缓存加速等多项技术,提供高可用性和持久性,以及稳定的低时延性能。CCE支持将使用DSS创建的存储卷挂载到容器。 专属存储性能规格
工作负载异常:实例无法写入数据 Pod事件 Pod所在的节点文件系统损坏,新建的Pod无法成功在/var/lib/kubelet/device-plugins/.xxxxx写入数据,Pod通常会出现以下类似事件: Message: Pod Update Plugin resources
Secret Secret是一种加密存储的资源对象,您可以将认证信息、证书、私钥等保存在Secret中,而不需要把这些敏感数据暴露到镜像或者Pod定义中,从而更加安全和灵活。 Secret与ConfigMap非常像,都是key-value键值对形式,使用方式也相同,不同的是Sec
在CCE集群中使用密钥Secret的安全配置建议 当前CCE已为secret资源配置了静态加密,用户创建的secret在CCE的集群的etcd里会被加密存储。当前secret主要有环境变量和文件挂载两种使用方式。不论使用哪种方式,CCE传递给用户的仍然是用户配置时的数据。因此建议:
监控运维配置 CCE为您提供监控应用及资源的能力,支持采集各项指标及事件等数据以分析应用健康状态,您可以通过“配置中心 > 监控运维配置”统一调整监控运维参数。 您需要开通监控中心,以使用监控运维配置的所有功能。 监控配置 采集配置 系统预置采集:可视化管理云原生监控插件的监控采集任务。详情请参见管理监控采集任务。
Pod监控 如果您需要监控Pod的资源使用情况,可以前往“监控中心 > Pod”页面查看。该页面提供了指定集群下所有Pod的综合信息,以及单个Pod的详细监控数据,包括CPU/内存使用率、网络流入/流出速率等。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航
使用Prometheus监控多个集群 应用场景 通常情况下,用户的集群数量不止一个,例如生产集群、测试集群、开发集群等。如果在每个集群安装Prometheus监控集群里的业务各项指标的话,很大程度上提高了维护成本和资源成本,同时数据也不方便汇聚到一块查看,这时候可以通过部署一套P
创建命名空间 操作场景 命名空间(Namespace)是对一组资源和对象的抽象整合。在同一个集群内可创建不同的命名空间,不同命名空间中的数据彼此隔离。使得它们既可以共享同一个集群的服务,也能够互不干扰。 例如可以将开发环境、测试环境的业务分别放在不同的命名空间。 前提条件 至少已创建一个集群。
工作负载监控 如果您需要监控工作负载的资源使用情况,可以前往“监控中心 > 工作负载”页面查看。该页面提供了指定集群下所有工作负载的综合信息,以及单个工作负载的详细监控数据,包括CPU/内存使用率、网络流入/流出速率等。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。
单集群视角的成本洞察 单集群视角的成本洞察是为了帮助成本运维人员深入集群内部,从命名空间、应用、节点池等多个维度分析集群成本开销、资源使用状况,进而提供成本优化的依据。当前支持集群维度和命名空间维度两个视角的成本洞察。 前提条件 已开通成本洞察功能 约束与限制 由于实际账单的获取
8及以上插件版本中支持,默认使用优化性能的内核参数配置。 maxmindLicenseKey:Maxmind许可证密钥,可用于下载GeoLite2数据库。在2.2.82、2.6.32、3.0.8及以上插件版本中支持,该参数为Nginx Ingress设置配置use-geoip2能力的必填参数。
节点监控 如果您需要监控节点的资源使用情况,可以前往“监控中心 > 节点”页面查看。该页面提供了指定集群下所有节点的综合信息,以及单个节点的详细监控数据,包括CPU/内存使用率、网络流入/流出速率、磁盘读/写IO等。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左
CCE集群备份恢复(停止维护) 插件简介 CCE集群备份恢复插件(原名e-backup)提供集群备份恢复能力。它将用户应用数据和业务数据备份到OBS桶中,并提供数据的本地备份和远程备份的能力。 使用约束 备份/恢复过程中,用户要保证集群处于稳态,不要触发增删改等变更行为,以免出现备份/恢复失败或不完整;
就是在最少连接数的基础上,根据服务器的不同处理能力,给每个服务器分配不同的权重,使其能够接受相应权值数的服务请求。常用于长连接服务,例如数据库连接等服务。 源IP算法:将请求的源IP地址进行Hash运算,得到一个具体的数值,同时对后端服务器进行编号,按照运算结果将请求分发到对应编
Jenkins Master安装部署 Jenkins界面中的词条可能因版本不同而存在一些差异,例如中英文不同等,本文中的截图仅供您参考。 镜像选择 在DockerHub上选择1个相对较新的稳定镜像,本次搭建测试用的Jenkins使用的镜像为jenkinsci/blueocean,该镜像捆绑了所有Blue