检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
业务容器物理内存限制值之和(未配置限制值时采用节点总量) 数据面监控 此处默认统计近1小时、近8小时和近24小时的各维度资源用量。如需查看更多监控信息,请单击“查看全部监控”,跳转至“仪表盘”页面,相应指导请参见使用仪表盘。 您可以将鼠标悬停在图表上,以便查看每分钟的监控数据。 CPU:单位时间内集群CPU使用情况的统计。
制、服务注册、服务发现、日志审计等场景。 例如,当有一个需要访问云上数据库的StatefulSet类型业务,需要在对云上数据库进行严格的访问控制,只允许该业务进行访问,则可固定该业务的Pod IP,配置云上数据库的安全组只允许该业务的容器IP可进行访问。 约束限制 仅以下指定版本的CCE
载这个新的PVC到原有挂载路径,实现存储卷迁移。 迁移时会造成服务断服,请合理规划迁移时间,并做好相关备份。 操作步骤 数据备份(可选,主要防止异常情况下数据丢失)。 根据FlexVolume格式的PV,准备CSI格式的PV的yaml文件关联已有存储。 执行如下命令,配置名为“pv-example
autoscaler:节点伸缩插件。 metrics-server:是Kubernetes集群范围资源使用数据的聚合器,能够收集包括了Pod、Node、容器、Service等主要Kubernetes核心资源的度量数据。 登录集群节点,准备一个算力密集型的应用。当用户请求时,需要先计算出结果后才返回给用户结果,如下所示。
一般适用于设备需求量长期稳定的成熟业务。 按需计费 一种后付费模式,即先使用再付费,按照云服务器实际使用时长计费,秒级计费,按小时结算。按需计费模式允许您根据实际业务需求灵活地调整资源使用,无需提前预置资源,从而降低预置过多或不足的风险。 一般适用于电商抢购等设备需求量瞬间大幅波动的场景。
使用KMS进行Secret落盘加密 华为云数据加密服务(DEW)为您提供易用、高安全性的密钥管理服务(Key Management Service),您可以使用KMS密钥对CCE中存储的Kubernetes Secret对象进行信封加密,为应用程序的敏感数据提供安全保护。 当前仅CCE S
CCE集群中的EVS存储卷被删除或者过期后是否可以恢复? 云硬盘EVS存储需要人工配置备份策略。如果卷被删除或者释放,可以使用云硬盘备份恢复数据。 详细请参见备份云硬盘。 父主题: 存储管理
足Prometheus的监控数据规范才能够被ICAgent采集,参见Prometheus监控数据采集说明。 ICAgent仅支持上报Gauge指标类型的指标。 ICAgent调用自定义指标的接口周期为1分钟,不支持修改。 Prometheus监控数据采集说明 Prometheus
1.13.10,纳管节点还需要与CCE集群在同一子网内)。 待纳管节点需挂载数据盘,可使用本地盘(磁盘增强型实例)或至少挂载一块20GiB及以上的数据盘,且不存在10GiB以下的数据盘。关于节点挂载数据盘的操作说明,请参考新增磁盘。 待纳管节点规格要求:CPU必须2核及以上,内存
Grafana 插件简介 Grafana是一款开源的数据可视化和监控平台,可以为您提供丰富的图表和面板,用于实时监控、分析和可视化各种指标和数据源。 安装插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”,在右侧找到Grafana,单击“安装”。 设置插件
conn_reuse_mode问题说明。 iptables简介 iptables是一个Linux内核功能,提供了大量的数据包处理和过滤方面的能力。它可以在核心数据包处理管线上用Hook挂接一系列的规则。iptables模式中kube-proxy 在NAT pre-routing
MYSQL_DATABASE database 镜像启动时要创建的数据库名称,可自定义。 MYSQL_USER db_user 数据库用户名称,可自定义。 MYSQL_PASSWORD 请您自行设置密码 数据库用户密码,可自定义。 在“数据存储”下选择“动态挂载 (VolumeClaimTem
供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性。 Volcano提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力,通过接入AI、大数据、基因、渲染等诸多行业计算框架服务终端用户,最大支持1
问题定位 GPU插件的驱动版本较低,单独下载驱动安装后正常。 工作负载中未声明需要gpu资源。 建议方案 节点安装了gpu-beta(gpu-device-plugin)插件后,会自动安装nvidia-smi命令行工具。引起部署GPU服务报错通常是由于nvidia驱动安装失败,请排查nvidia驱动是否下载成功。
创建无状态负载(Deployment) 操作场景 在运行中始终不保存任何数据或状态的工作负载称为“无状态负载 Deployment”,例如nginx。您可以通过控制台或kubectl命令行创建无状态负载。 前提条件 在创建容器工作负载前,您需要存在一个可用集群。若没有可用集群 ,
已创建一个包含4核8G节点的CCE集群。创建集群的方法,请参见快速创建Kubernetes集群。 已根据步骤1:部署MySQL部署MySQL数据库,本例中WordPress的数据将保存在该数据库中。 通过控制台创建WordPress 登录CCE控制台。 单击集群进入集群控制台。 在左侧菜单栏选择“工作负载”,单击右上角“创建负载”。
基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。
应用功能验证 由于集群迁移是对应用数据的全量迁移,可能存在应用内适配问题。例如本示例中,集群迁移后,Wordpress中发布的文章跳转链接仍是原域名,单击文章标题将会重定向至原集群中的应用实例,因此需要通过搜索将Wordpress中原有的旧域名并替换为新域名,并修改数据库中的site_url
"DCGM_EXPORTER_KUBERNETES_GPU_ID_TYPE" # GPU ID类型,可选值为uid或device-name value: "device-name" name: "dcgm-exporter" ports:
修复安装驱动的问题 2.5.4 v1.28 支持v1.28集群 2.1.24 v1.21 v1.23 v1.25 v1.27 GPU基础指标中增加XGPU数据 2.1.14 v1.21 v1.23 v1.25 v1.27 修复nvidia-container-toolkit CVE-2024-0132容器逃逸漏洞