检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
npu-driver-installer 该容器运行在NPU节点上,负责安装NPU驱动。 DaemonSet huawei-npu-device-plugin 支持容器里使用huawei NPU设备的管理插件。 DaemonSet NPU指标 指标 监控级别 备注 cce_npu_memory_total
问题原理 BUS 0上热插PCI设备后,Linux内核会多次遍历挂载在BUS 0上的所有PCI-Bridge,且PCI-Bridge在被更新期间无法正常工作。在此期间,若设备使用的PCI-Bridge被更新,由于内核缺陷,该设备会认为PCI-Bridge异常,设备进入故障模式进而无法正常
在cluster-2集群中部署相同的应用,重复执行以上命令,创建相同的工作负载。 步骤2:配置流量复制 cluster-2作为流量的接收方,不需要进行任何配置修改,只需要在cluster-1上配置即可。 在将cluster-1中应用的访问流量复制到cluster-2中对应的应用服务后,客户端只会收
统一架构,高弹性 云上云下同架构平台,可灵活根据流量峰值实现资源在云上云下的弹性伸缩、平滑迁移和扩容。 计算与数据分离,能力共享 通过云容器引擎,用户可以实现敏感业务数据与一般业务数据的分离,可以实现开发环境和生产环境分离,可以实现特殊计算能力与一般业务的分离,并能够实现弹性扩展和集群的
负载均衡器cookie:负载均衡器会根据客户端第一个请求生成一个cookie,后续所有包含这个cookie值的请求都会由同一个后端服务器处理。 应用程序cookie:该选项依赖于后端应用。后端应用生成一个cookie值,后续所有包含这个cookie值的请求都会由同一个后端服务器处理。 如果客户端发送请求未附带cookie,则会话保持无法生效。
时,工作负载可能会迁移到不同的 CPU 核。许多应用对这种迁移不敏感,因此无需任何干预即可正常工作。有些应用对CPU敏感,对于CPU敏感型应用,您可以利用Kubernetes中提供的CPU管理策略为应用分配独占核,提升应用性能,减少应用的调度延迟。 CPU管理策略 增强型CPU管理策略
API接口,用户必须通过编程或第三方工具访问对象存储。 数据共享:服务器、嵌入式设备、IOT设备等所有调用相同路径,均可访问共享的对象存储数据。 公共/私有网络:对象存储数据允许在公网访问,满足互联网应用需求。 容量与性能:容量无限制,性能较高(IO读写时延10ms级)。 应用场景:适用于(基于OBS界面、OBS工具、OBS
1:显存算力隔离模式 2:默认模式,表示当前卡还没被用于GPU虚拟化设备分配。 xgpu_device_health GPU卡 GPU虚拟化设备的健康情况。 0:表示GPU虚拟化设备为健康状态。 1:表示GPU虚拟化设备为非健康状态。 访问Grafana Prometheus插件同时
加密磁盘的快照数据以加密方式存放,非加密磁盘的快照数据以非加密方式存放。 使用场景 快照功能可以帮助您实现以下需求: 日常备份数据 通过对云硬盘定期创建快照,实现数据的日常备份,可以应对由于误操作、病毒以及黑客攻击等导致数据丢失或不一致的情况。 快速恢复数据 更换操作系统、应用软件升级
参数报表: 数据对比:PV对比昨日、PV对比上周、UV对比昨日、UV对比上周、今日PV/UV、7日PV/UV。 数据分布:访问量PV分布(中国)、访问量PV分布(世界)、访问量UV分布(中国)、访问量UV分布(世界)、平均时延分布(中国)、平均时延分布(世界)、设备占比(终端)、设备占比(系统)。
选择合适的节点数据盘大小 节点在创建时会默认创建一块数据盘,供容器运行时和Kubelet组件使用,详情请参见数据盘空间分配说明。由于容器运行时和Kubelet组件使用的数据盘不可被卸载,且默认大小为100G,出于使用成本考虑,您可手动调整该数据盘容量,最小支持下调至20G,节点上挂载的普通数据盘支持下调至10G。
kubelet配置 CPU管理策略配置 提供的CPU管理策略为应用分配独占的CPU核(即CPU绑核),提升应用性能,减少应用的调度延迟。 参数名 取值范围 默认值 是否允许修改 作用范围 cpu-manager-policy none/static none 允许 CCE Standard/CCE
Kubernetes 集群备份、迁移工具,集成了Restic工具对PV数据的备份能力,可以通过Velero工具将原集群中的K8s资源对象(如Deployment、Job、Service、ConfigMap等)和Pod挂载的持久卷数据保存备份上传至对象存储。在发生灾难或需要迁移时,目标集群可使
活性。 CCE中设置的环境变量与Dockerfile中的“ENV”效果相同。 容器启动后,容器中的内容不应修改。如果修改配置项(例如将容器应用的密码、证书、环境变量配置到容器中),当容器重启(例如节点异常重新调度Pod)后,会导致配置丢失,业务异常。 配置信息应通过入参等方式导入容器中,以免重启后配置丢失。
5GiB。 其他资源配额 节点通常还可以具有本地的临时性存储(Ephemeral Storage),由本地挂载的可写入设备或者有时也用RAM来提供支持。临时性存储所存储的数据不提供长期可用性的保证,Pod通常可以使用本地临时性存储来实现缓冲区、保存日志等功能,也可以使用emptyDir
低了AI计算的成本,同时帮助数据工程师在集群上轻松部署计算应用,您无需关心复杂的部署运维,专注核心业务,快速实现从0到1快速上线。 优势 CCE通过集成Volcano,在高性能计算、大数据、AI等领域有如下优势: 多种类型作业混合部署:支持AI、大数据、HPC作业类型混合部署。
务器”。 登录目标节点。 使用lsblk命令查看节点块设备信息。 这里存在两种情况,根据容器存储Rootfs而不同。 Overlayfs:没有单独划分thinpool,在dockersys空间下统一存储镜像相关数据。 查看设备的磁盘和分区大小。 # lsblk NAME
准备应用运行环境 在应用分析后,您已经了解到应用所需的操作系统、运行环境等。您需要准备好这些环境。 安装Docker:应用容器化时,需要将应用构建为容器镜像。您需要准备一台机器,并安装Docker。 获取运行环境:获取运行应用的运行环境,以及对接的MongoDB数据库。 安装Docker
使用dcgm-exporter监控GPU指标 应用场景 集群中包含GPU节点时,需要了解GPU应用使用节点GPU资源的情况,例如GPU利用率、显存使用量、GPU运行的温度、GPU的功率等。在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,或者根据GPU指标设置告
单击后方的“展开高级设置”可进行如下设置。 数据盘空间分配:对数据盘上存在的容器引擎、镜像、临时存储等进行空间划分,避免因磁盘空间不足导致业务异常。数据盘空间分配详细说明请参见默认数据盘空间分配说明。 数据盘加密:数据盘加密功能可为您的数据提供强大的安全防护,加密磁盘生成的快照及通