检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
volcano 插件简介 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性。 Volcano提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通
创建GPU应用 本文介绍如何使用GPU虚拟化能力实现算力和显存隔离,高效利用GPU设备资源。 前提条件 已完成GPU虚拟化资源准备。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 init容器不支持进行GPU虚拟化。
集群评估 将应用从一个环境迁移到另一个环境是一项具有挑战性的任务,因此您需要进行仔细的规划和准备。kspider是一款用于采集源集群信息的工具,它向用户提供了集群的Kubernetes版本、规模、工作负载数量、存储以及正在使用的镜像等数据,这些信息有助于用户了解集群的当前状况,评
集群评估 将应用从一个环境迁移到另一个环境是一项具有挑战性的任务,因此您需要进行仔细的规划和准备。kspider是一款用于采集源集群信息的工具,它向用户提供了集群的Kubernetes版本、规模、工作负载数量、存储以及正在使用的镜像等数据,这些信息有助于用户了解集群的当前状况,评
集群评估 将应用从一个环境迁移到另一个环境是一项具有挑战性的任务,因此您需要进行仔细的规划和准备。kspider是一款用于采集源集群信息的工具,它向用户提供了集群的Kubernetes版本、规模、工作负载数量、存储以及正在使用的镜像等数据,这些信息有助于用户了解集群的当前状况,评
收集控制面组件日志 费用说明 LTS创建日志组免费,并每月赠送每个账号一定量免费日志采集额度,超过免费额度部分将产生费用。 约束与限制 华为云集群必须为v1.21.7-r0及以上补丁版本、v1.23.5-r0及以上补丁版本或1.25版本。 请确保云日志服务LTS资源配额充足,LTS的默认配额请参见基础资源。
设置容器健康检查 操作场景 健康检查是指容器运行过程中,根据用户需要,定时检查容器健康状况。若不配置健康检查,如果容器内应用程序异常,Pod将无法感知,也不会自动重启去恢复。最终导致虽然Pod状态显示正常,但Pod中的应用程序异常的情况。 Kubernetes提供了两种健康检查的探针:
配置工作负载升级策略 在实际应用中,升级是一个常见的场景,Deployment、StatefulSet和DaemonSet都能够很方便地支撑应用升级。 设置不同的升级策略,有如下两种。 RollingUpdate:滚动升级,即逐步创建新Pod再删除旧Pod,为默认策略。 Recr
创建NPU应用 前提条件 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 当前不支持npu负载多容器能力。 通过控制台创建NPU应用 本节以创建无状态工作负载(Deployment)为例,说明通过控制台创建npu资源应用的方法。
错误码 如果操作请求在执行过程中出现异常导致未被处理,则会返回一条错误信息,错误信息中包括错误码和具体错误描述。 表1 错误码说明 错误码 状态码 错误信息 描述 处理措施 UCS.00000001 400 Failed to obtain the user information
工作负载升级配置 在实际应用中,升级是一个常见的场景,Deployment、StatefulSet和DaemonSet都能够很方便地支撑应用升级。 通过控制台配置工作负载升级 在创建工作负载时,单击“展开高级配置”。 参考表1,设置升级策略。 表1 参数说明 参数 描述 升级方式
配置调度与差异化 集群调度策略 当前界面支持集群权重和自动均衡两种策略。 通过控制台配置调度策略 登录UCS控制台。 在创建工作负载时,单击“下一步:调度与差异化”。 添加调度策略。 表1 调度策略 策略 描述 集群权重策略 需要您选择集群并配置分发权重,按照集群权重配比分发Pod。
仪表盘 仪表盘可将不同图表展示到同一个屏幕上,通过不同的仪表形式来展示资源数据,例如,曲线图、数字图等,进而全面、深入地掌握监控数据。 查看/切换视图 选择一个容器舰队或者未加入舰队的集群。 图1 选择舰队或未加入舰队的集群 选择“仪表盘”页签,默认展示集群视图。 设置查看视图的
UCS双集群高可用部署 应用场景 大企业场景提供多集群多活方案,做小故障域降低逻辑层面故障的风险,提供原有生态的兼容,最大限度降低在业务发布、运维等方面的适配工作量。 通过UCS提供双集群多活容灾,可以确保在任何一个可用区或集群发生故障时,不影响服务整体可用性。 约束限制 您需要