检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
单击“提交”,开始创建节点。 父主题: 集群
CCE事件列表 在集群运行过程中,CCE会上报一系列事件至AOM,您可以根据自身需求添加事件类告警,监控集群数据面和控制面组件的健康状态,及时发现和解决问题,保证集群的稳定性和可靠性。 集群数据面事件:集群运行过程中与用户操作相关的事件,包括工作负载、网络、节点、存储、弹性伸缩等事件
这个值限制了上传文件或者提交大数据表单的大小。如果请求体超过了这个值,将返回413 (Payload Too Large) 错误。
获取模板实例列表 功能介绍 获取模板实例列表 调用方法 请参见如何调用API。 URI GET /cce/cam/v3/clusters/{cluster_id}/releases 表1 路径参数 参数 是否必选 参数类型 描述 cluster_id 是 String 参数解释:
查询API版本信息列表 功能介绍 该API用于查询CCE服务当前支持的API版本信息列表。 调用方法 请参见如何调用API。 URI GET / 请求参数 无 响应参数 状态码: 200 表1 响应Body参数 参数 参数类型 描述 versions Array of APIVersionDetail
获取UpgradeWorkFlows列表 功能介绍 获取历史集群升级引导任务列表 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/clusters/{cluster_id}/operation/upgradeworkflows
如果使用上述方式均无法获取到所需 ID,请提交工单联系运维人员处理。 如果您确定吊销所选用户的集群访问凭证,请在二次确认框中输入REVOKE后单击“确定”。 父主题: 连接集群
AI任务性能增强调度(Volcano调度器支持) 公平调度(DRF) DRF(Dominant Resource Fairness)是主资源公平调度策略,可以支持多种类型资源的公平分配,应用于大批量提交AI训练和大数据作业场景。
获取集群备份任务详情列表 功能介绍 获取集群备份任务详情列表 调用方法 请参见如何调用API。 URI GET /api/v3.1/projects/{project_id}/clusters/{cluster_id}/operation/snapshot/tasks 表1 路径参数
输入“exit”,按下回车键,可退出ClickHouse DataBase。
节点ARP表项超过限制 问题现象 ARP缓存超限,容器网络的访问出现异常,例如coredns域名解析概率失败。 问题根因 出现该问题的原因是节点上容器缓存的ARP表项超过限制。 问题定位 在节点操作系统内核为4.3以上时,dmsg日志中会有显性的打印neighbor table overflow
如果您期望提升节点上的部署密度,您可以提交工单申请调整节点最大实例数,最大支持修改至512个实例。 图2 创建节点时的最大实例数配置 根据节点规格不同,节点默认最大实例数如表1所示。
如果您期望提升节点上的部署密度,您可以提交工单申请调整节点最大实例数,最大支持修改至512个实例。 图2 创建节点时的最大实例数配置 根据节点规格不同,节点默认最大实例数如表1所示。
参考 Kubelet does not delete evicted pods 提交工单 如果上述方法均不能解决您的疑问,请提交工单寻求更多帮助。 父主题: 工作负载异常问题排查
获取集群升级任务详情列表 功能介绍 获取集群升级任务详情列表 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/clusters/{cluster_id}/operation/upgrade/tasks 表1 路径参数 参数
CCE推荐的GPU驱动版本列表 对于CCE集群,各系统推荐使用驱动版本如下表,若使用非CCE推荐驱动版本,需要您自行验证机型、系统及驱动版本间的配套兼容性。您可以根据您的应用所使用的CUDA Toolkit版本,对照CUDA Toolkit与NVIDIA驱动的版本兼容性列表,选择合适的
volcano.sh/oversubscription=true 提交离线作业,资源充足的情况下,离线作业都调度到了超卖节点上。 离线作业模板如下。
GPU视图 GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。 指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量
PVC视图 提供了集群中的PVC监控视图,包含PV/PVC的状态、使用率情况。 支持以下PVC类型监控: 云硬盘类型的PVC(要求volumeMode参数值为Filesystem)支持使用量监控。 本地持久卷类型的PVC(要求集群中安装的Everest版本大于等于2.4.41)支持使用量监控
确认订单无误后,单击“提交”。 启用时间预计需要5分钟,您可以单击请求提交页面的“返回Istio管理”或“前往CCE集群管理”查看网格运行状态。