检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE AI套件(Ascend NPU) 插件介绍 CCE AI套件(Ascend NPU)是支持容器里使用NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic
CCE AI套件(NVIDIA GPU) 插件介绍 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 是 object 插件基础配置参数。
CCE AI套件(NVIDIA GPU) 插件简介 CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 约束与限制 下载的驱动必须是后缀为“.run”的文件。 仅支持Nvidia Tesla驱动,不支持GRID驱动。
Server能够正常处理请求。 OpenKurise是CCE基于开源软件进行适配并集成的精选开源插件,CCE将提供全面的技术支持服务。然而,CCE不承担因开源软件缺陷导致的业务损失责任,也不承担赔偿或额外的服务,强烈建议用户定期升级软件以修复潜在问题。 安装步骤 登录CCE控制台,单击集群名
在IDC的域名解析服务器上做级联配置。 此处配置跟具体域名解析服务器相关,不同域名解析服务器的配置方法不同,请根据实际情况配置。 这里使用BIND软件(一个常用的域名解析服务器软件)为例进行说明。 域名解析服务器上配置的关键是将需要解析华为云内部域名的任务转发给上一步创建的DNS Endpoint。 例
CCE AI套件(Ascend NPU) 插件简介 CCE AI套件(Ascend NPU)是支持容器里使用huawei NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 约束与限制 集群中使用“AI加速型”节点时必须安装CCE
编译可能需要一定时间,请耐心等待。编译完成后,软件包名称为spark-3.1.3-bin-hadoop3.1.tgz。 配置Spark运行环境 为了操作简便,使用root用户,并将编译出的软件包spark-3.1.3-bin-hadoop3.1.tgz放置于操作节点/root目录下。 将软件包移动至/root目录。
足如下的要求: 资源 说明 VPC VPC网段(CIDR)不能重叠。 ER路由表使用的是“虚拟私有云(VPC)”连接的传播路由,由ER自动学习VPC网段作为目的地址,不支持修改,因此重叠的VPC网段会导致路由冲突。同时容器网段也不可与对端VPC的节点网段冲突,否则也会造成网络不通。
脚本将在Kubernetes软件安装前执行,可能导致Kubernetes软件无法正常安装,需谨慎使用。 安装后执行脚本 请输入脚本命令,命令中不能包含中文字符。脚本命令会进行Base64转码。安装前/后执行脚本统一计算字符,转码后的字符总数不能超过10240。 脚本将在Kubernetes软件安装后执
如何添加ping命令,若已有ping命令可跳过。 确保从Pod能够访问公网,请参见从Pod访问公网。 更新本地的软件包索引,并安装iputils-ping软件包,该软件包提供了ping命令。 apt-get update apt-get install iputils-ping 重新尝试访问ECS。
表2 工作队列指标说明 指标名称 单位 说明 工作队列增加速率 操作次数/秒 APIServer每秒工作队列增加的次数 工作队列深度 个 工作队列深度 工作队列时延(P99) 毫秒 APIServer请求P99在工作队列中停留时间 图3 资源指标 表3 资源指标说明 指标名称 单位
容器重建是指容器被销毁并重新创建一个新实例。容器重建可能由多种原因触发,以下是一些常见的场景: 表1 容器重建的常见场景 常见场景 说明 容器崩溃或异常终止 当运行中的容器因软件错误、资源耗尽或其他意外情况崩溃时,为了确保服务的连续性,系统会自动重建容器以迅速恢复服务。 手动删除某容器 若手动删除了某个正在运行的容
AI任务性能增强调度 公平调度(DRF) 组调度(Gang) 父主题: Volcano调度
微服务治理相关的代码,导致开发人员不能专注于业务开发,还需要考虑微服务治理的解决方案,并且将解决方案融合到其业务系统中。 价值 云容器引擎深度集成应用服务网格,提供开箱即用的应用服务网格流量治理能力,用户无需修改代码,即可实现灰度发布、流量治理和流量监控能力。 优势 开箱即用 与
程序的一些Metadata,以便于应用程序的分发。对于应用发布者而言,可以通过Helm打包应用、管理应用依赖关系、管理应用版本并发布应用到软件仓库。对于使用者而言,使用Helm后不用需要编写复杂的应用部署文件,可以以简单的方式在Kubernetes上查找、安装、升级、回滚、卸载应用程序。
在这个状态下的实例,不能对外提供业务。 创建中 中间状态 创建节点实例后,在节点状态进入运行中之前的状态。 安装中 中间状态 节点处于安装Kubernetes软件的过程中。 升级中 中间状态 表示节点正处于升级过程中。 删除中 中间状态 节点处于正在被删除的状态。 如果长时间处于该状态,则说明出现异常。
本例是tomcat类型的web应用,需要7.0版本的tomcat环境,且tomcat需要1.8版本的jdk。 依赖包 了解自己应用所需要的依赖包,类似openssl等系统软件,以及具体版本号。 本例不需要使用任何依赖包。 部署形态 周边配置 MongoDB:本例中MongoDB和Tomcat应用是在同一台机器中
仅适用于Linux弹性云服务器。您可以使用远程登录工具(例如PuTTY、Xshell、SecureCRT等)登录弹性云服务器。如果普通远程连接软件无法使用,您可以使用云服务器ECS管理控制台的管理终端连接实例,查看云服务器操作界面当时的状态。 SSH方式登录包括SSH密钥和SSH密码
通过AOM配置自定义告警 CCE对接AOM并上报告警和事件,通过在AOM中设置告警规则,您可以及时了解集群中各种资源是否存在异常。 告警配置流程 在SMN创建主题。 创建行动规则。 添加告警规则。 事件类告警:根据集群上报到AOM的事件配置告警。推荐配置的事件和配置方法请参见添加事件类告警。
CCE AI套件(NVIDIA GPU)版本发布记录 表1 CCE AI套件(NVIDIA GPU)版本记录 插件版本 支持的集群版本 更新特性 2.7.19 v1.28 v1.29 v1.30 修复nvidia-container-toolkit CVE-2024-0132容器逃逸漏洞