检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用PrometheusRules配置普罗监控与告警规则 Prometheus具有PrometheusRule的能力,PrometheusRules提供了一种用于监控和警报的规则语言,能够方便用户更好的使用Prometheus查询监控指标,配置基于PromQL的告警规则。 当前云原生监控插件仅支持开启本地数
清理节点上的CCE组件。 登录服务器的管理控制台,完成操作系统的重装,详细步骤请参见切换操作系统。 登录服务器,执行如下命令完成CCE组件和LVM数据的清理。 将如下脚本写入clean.sh文件。 lsblk vgs --noheadings | awk '{print $1}'
上月同期:当前部门上月整月产生的成本 环比上月:(月末预测成本 - 上月同期成本)/ 上月同期成本 成本趋势 年度、季度、月度 呈现本年、本季度、本月成本详情,以及分别和上年、上季、上月的成本对比趋势 集群维度统计、命名空间维度统计对应部门配置中关联的集群、命名空间的成本统计,不包含部门中的公共成本。如下示例
Configuration > Manage Plugins”,在“Available”页签中筛选安装“GitLab”、“Kubernetes CLI”和“Email Extension Template”插件。 上述安装的插件版本可能随时间变化发生变动。 配置Gitlab Hook 当推送代
与污点管理”。 在弹出的窗口中,在“批量操作”下方单击“新增批量操作”,然后选择“添加/更新”或“删除”。 填写需要增加/删除标签的“键”和“值”,单击“确定”。 例如,填写的键为“deploy_qa”,值为“true”,就可以从逻辑概念表示该节点是用来部署QA(测试)环境使用。
mkdir -p $HOME/.kube mv -f kubeconfig.json $HOME/.kube/config 切换kubectl的访问模式,使用SAN连接集群。 kubectl config use-context customSAN-0 其中customSAN-0为自定义S
24版本后,kube-controller-manager和kube-scheduler移除启动参数--port=0和--address。 在Kubernetes 1.24版本后,kube-apiserver --audit-log-version和--audit-webhook-version仅支持audit
node_memory_MemTotal_bytes gauge 节点内存总字节数 node_cpu_seconds_total counter 在不同模式下节点累计CPU花费的时间 container_cpu_usage_seconds_total counter 容器CPU累计使用时间 container_memory_rss
24版本后,kube-controller-manager和kube-scheduler移除启动参数--port=0和--address。 在Kubernetes 1.24版本后,kube-apiserver --audit-log-version和--audit-webhook-version仅支持audit
4-r0和v1.23.3-r0以下版本集群中,节点内存的预留规则使用v1模型。对于v1.21.4-r0和v1.23.3-r0及以上版本集群,节点内存的预留规则优化为v2模型,请参见CCE对节点内存的预留规则v2。 如果节点资源占用比较满,集群升级到v1.21.4-r0和v1.23
30版本进行定期的更新,并提供功能增强。 关于CCE集群版本的更新说明,请参见补丁版本发布说明。 参考链接 关于Kubernetes 1.30与其他版本的性能对比和功能演进的更多信息,请参考:Kubernetes v1.30 Release Notes 父主题: Kubernetes版本发布记录
到2个GPU。但是TFJob1和TFJob2均需要4块GPU卡才能运行起来。这样TFJob1和TFJob2处于互相等待对方释放资源,这种死锁情况造成了GPU资源的浪费。 亲和调度问题 分布式训练中,Ps和Worker存在很频繁的数据交互,所以Ps和Worker之间的带宽直接影响了训练的效率。
文件存储支持的读写方式,支持nfs-rw 、nfs-ro。必须和已有PV保持一致。 volume.beta.kubernetes.io/storage-provisioner 必须使用flexvolume-huawei.com/fuxinfs。 storage 存储容量,单位Gi,必须和已有pv的storage大小保持一致。
30版本进行定期的更新,并提供功能增强。 关于CCE集群版本的更新说明,请参见补丁版本发布说明。 参考链接 关于Kubernetes 1.30与其他版本的性能对比和功能演进的更多信息,请参考:Kubernetes v1.30 Release Notes 父主题: Kubernetes版本发布记录
2048Mi CCE 容器存储(Everest) 集群规格调整后,Everest插件规格需要根据集群的规模和PVC数量进行自定义调整。其中,插件组件的CPU和内存申请值可根据集群节点规模和PVC数量不同进行调整,配置建议请参见表2。 非典型场景下,限制值一般估算公式如下: everest-csi-controller:
主题是消息发布或客户端订阅通知的特定事件类型。它作为发送消息和订阅通知的信道,为发布者和订阅者提供一个可以相互交流的通道。 您需要创建一个主题,并订阅。具体方法请参见创建主题和订阅主题。 订阅主题后,请前往您的订阅终端(邮件或短信)手动确认添加订阅,消息通知才可生效。 创建行动规则 AOM提供告警行动规则
当前检查项仅1.16.0及以上版本支持。 NPD的检查项主要分为事件类检查项和状态类检查项。 事件类检查项 对于事件类检查项,当问题发生时,NPD会向APIServer上报一条事件,事件类型分为Normal(正常事件)和Warning(异常事件) 表2 事件类检查项 故障检查项 功能 说明
yaml 命令中的yaml名称是示例,请以实际步骤2和步骤3创建的pv和pvc的yaml名字为准。 进入应用更新升级界面:更新升级 - 高级设置 - 数据存储 - 云存储。 卸载老存储,同时添加CSI格式的PVC的云存储,容器内挂载路径和以前保持一致,实现存储迁移。 单击提交,确认后升级生效。
开通成本洞察 成本洞察基于真实账单和集群资源用量统计数据,通过自研的成本画像算法进行成本拆分,提供以部门、集群、命名空间、应用等维度的成本画像。成本洞察能够帮助成本管理人员分析集群成本开销、资源使用状况,识别资源浪费,为下一步的成本优化提供输入。 本文主要介绍如何开通成本洞察功能。
EulerOS 2.0建议使用470及以上版本驱动;Ubuntu 22.04建议使用515及以上版本驱动。 插件安装完成后,GPU 虚拟化和节点池驱动配置请前往“配置中心 > 异构资源配置”页进行设置。 单击“安装”,安装插件的任务即可提交成功。 卸载插件将会导致重新调度的GPU