检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
470.141.03 470.141.03 470.141.03 Volta V100 CCE Standard集群 p2s p2vs p2v 535.54.03 510.47.03 470.57.02 535.161.08 535.54.03 470.141.03 535.54
区域与可用区 什么是区域、可用区? 区域和可用区用来描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Re
enable参数,用于收集节点numa拓扑信息。JSON格式的示例如下: { "plugins": { "eas_service": { "availability_zone_id": "", "driver_id": "",
Kubernetes的Volume有非常多的类型,在实际使用中使用最多的类型如下。 emptyDir:一种简单的空目录,主要用于临时存储。 hostPath:将主机某个目录挂载到容器中。 ConfigMap、Secret:特殊类型,将Kubernetes特定的对象类型挂载到Pod,在ConfigMap
容器里用于挂载Hiai library的路径 默认值:"/usr/local/HiAI_unused" host_path 否 String 主机上包含Hiai library的路径 默认值:"/usr/local/HiAI_unused" npu_driver_config 否 Map
集群冻结/解冻/释放常见问题 集群为什么被冻结 资源冻结的类型包括欠费冻结、违规冻结、公安冻结。 单击了解资源冻结的类型、冻结后对续费、退订的影响。 集群如何解冻 欠费冻结:用户可通过续费或充值来解冻资源,恢复集群正常使用。欠费冻结的集群允许续费、释放或删除;已经到期的包年/包月
选中时间内成本分布。当前资源涵盖范围有:ECS成本、EVS成本、CCE集群管理成本 成本趋势 每天的成本分布趋势。从中可以看出,集群内成本开销趋势,可识别花费较高的资源 图3 集群各维度成本分析 名称 含义 命名空间 命名空间总成本:按命名空间聚合工作负载的成本,包括 CPU 成本(ECS)、内存成本(ECS)、EVS
前提条件 至少已创建一个集群。 约束与限制 每个命名空间下,创建的服务数量不能超过6000个。此处的服务对应kubernetes的service资源,即工作负载所添加的服务。 命名空间类别 命名空间按创建类型分为两大类:集群默认创建的命名空间、用户创建的命名空间。 集群默认创建
不同集群之间,资源不能共享。同时,不同环境中的服务互访需要通过负载均衡才能实现。 不同环境创建对应命名空间。 同个命名空间下,通过服务名称(Service name)可直接访问。跨命名空间的可以通过服务名称、命名空间名称访问。 例如下图,开发环境/联调环境/测试环境分别创建了命名空间。 图1
CSI(Container Storage Interface,容器存储接口)是容器标准存储接口规范,也是Kubernetes社区推荐的存储插件实现方案。CCE容器存储(Everest)是CCE基于CSI开发的自研存储插件,能够为容器提供不同类型的持久化存储功能。 存储卷访问模式 存储卷只
ScaleNodePoolRequestBody(); List<String> listSpecScaleGroups = new ArrayList<>(); listSpecScaleGroups.add("default"); ScaleNodePoolSpec
String 对接AOM的app_secret,对接AOM时必选 deploy_mode 是 String 普罗插件模型,取值agent、server,推荐使用agent enablethird 否 Boolean 指标是否上报第三方监控系统 url_third 否 String 三方监控系统上报指标URL
com", "driver_init_image_version": "2.4.4", "ecsEndpoint": "https://ecs.***.com", "everest_image_version": "2.4.4",
使用VPA需要在集群中安装能够提供Metrics API的插件,您可根据实际需求选择其中之一: Kubernetes Metrics Server:提供基础资源使用指标,例如容器CPU和内存使用率。 云原生监控插件:使用Prometheus提供基础资源使用指标,需将Prometheus注册为Metrics
eulerosv2r9.x86 64 2024年9月 更新系统内核,修复CVE-2024-1086安全漏洞。 修复内核缺陷导致低概率出现虚拟机卡住的问题。 4.18.0-147.5.1.6.h1152.eulerosv2r9.x86_64 2024年4月 更新系统内核,修复安全漏洞。
务运行。 登录CCE控制台,单击集群名称进入集群控制台。 单击“节点管理”,找到更新驱动的节点池,单击“节点列表”。 单击节点名称跳转到ECS界面。 单击右上角“重启”。 步骤三:验证驱动升级是否成功 节点完成重启后,请稍等几分钟,等待驱动安装。 登录节点,查看节点上的驱动是否更新。
cce-gpu-topology-predicate true/false true 允许 CCE Standard/CCE Turbo 一台AI服务器上共有8块NPU 1980芯片,4P * 2方式。每4块NPU 1980芯片之间通过HCCS互联,4块之间通过PCIe swith互联。 HCCS互联的4块NPU
/examples/jars/spark-examples_2.12-3.1.1.jar 配置说明: --master:集群的API Server,其中https://**.**.**.**:5443为 ~/.kube/config中使用的master地址,可通过kubectl cluster-info获取。
如果工作负载状态为“未就绪”,可通过查看Pod的事件等信息确定异常原因,详情请参见Pod事件查看方法。根据事件,参考Pod常见异常问题查找异常的解决方案。 如果工作负载状态为“处理中”,一般为过程中的状态,请耐心等待。 如果工作负载状态为“运行中”,一般无需处理。如果出现状态正常但无法访问
ELB Ingress和Nginx Ingress对比 在CCE服务中,集群支持通过Nginx Ingress和ELB Ingress为应用提供7层网络访问。 Nginx Ingress:CCE基于社区的Nginx Ingress Controller进行了优化,并定期同步社区特性和Bug修复。Nginx