检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查是否有程序正在使用GPU卡设备。 运行命令: sudo fuser -v /dev/nvidia* 如无fuser命令(以基于RPM的Linux发行版为例),可执行命令yum install psmisc安装psmisc包。 # sudo fuser -v /dev/nvidia*
创建集群 x √ √ 删除集群 x √ √ 更新集群,如后续允许集群支持RBAC,调度参数更新等 x √ √ 升级集群 x √ √ 唤醒集群 x √ √ 休眠集群 x √ √ 查询集群列表 √ √ √ 查询集群详情 √ √ √ 添加节点 x √ √ 删除节点/批量删除节点 x √ √ 更新节点,如更新节点名称
项的YAML文件。 更新配置 选择需要更新的配置项名称,单击“更新”。 根据表1更改信息。 单击“确定”。 删除配置 选择要删除的配置项,单击“删除”。 根据系统提示删除配置。 父主题: 配置项与密钥
5 NVIDIA Container Toolkit容器逃逸漏洞公告(CVE-2024-0132) 漏洞公告 2024/10/11 6 Linux CUPS服务RCE 漏洞公告(CVE-2024-47076、CVE-2024-47175、CVE-2024-47176、CVE-2024-47177)
并行文件系统 对象桶 无需填写 允许其他用户访问挂载目录。 no_check_certificate 并行文件系统 对象桶 无需填写 不校验服务端证书。 enable_noobj_cache 对象桶 无需填写 为不存在的对象启用缓存条目,可提高性能。对象桶读写模式下自动使用。 从everest
lib64在GPU容器里的挂载路径 默认值:"/usr/lib64,/usr/lib/x86_64-linux-gnu" metrics_delete_interval 否 int 无法获取某个指标时,删除这个指标的超时阈值,单位毫秒 默认值:30000 metrics_monitor_interval
则可跳过此步骤。 本文以Linux环境为例安装和配置kubectl,更多安装方式请参考安装kubectl。 下载kubectl。 cd /home curl -LO https://dl.k8s.io/release/{v1.29.0}/bin/linux/amd64/kubectl
负载均衡器:选择弹性负载均衡的类型、创建方式。 类型:本例中仅支持选择“独享型”,且需选择“应用型(HTTP/HTTPS)”或“网络型(TCP/UDP/TLS)&应用型(HTTP/HTTPS)”,否则监听器端口将无法选择HTTP或HTTPS协议。 创建方式:本文中以选择已有ELB为例进行说明,关于自动创建的配置参数请参见表1。
查看是否存在排水任务,以下为正常回显: kubectl get drainage 图1 排水任务,以下回显表示存在排水任务 请将drainage资源进行删除,删除之后再次触发升级前检查。 执行以下命令删除排水任务。 kubectl delete drainage {排水任务名称} 父主题: 升级前检查异常问题排查
在ECS服务器上安装Argo CD客户端。 # wget https://github.com/argoproj/argo-cd/releases/download/v2.4.0/argocd-linux-amd64 # cp argocd-linux-amd64 /usr/local/bin/argocd
时间内没有新的请求, 负载均衡会暂时中断当前连接,直到下一次请求时重新建立新的连接。 配置超时时间后,如果您在CCE控制台删除超时时间配置或在YAML中删除对应的annotation,ELB侧的配置将会保留。 约束与限制 支持设置超时时间的场景如下: 超时时间类型 支持的ELB类型
双向认证。 CA证书:SSL解析方式选择“双向认证”时需要添加CA证书,用于认证客户端身份。CA证书又称客户端CA公钥证书,用于验证客户端证书的签发者;在开启HTTPS双向认证功能时,只有当客户端能够出具指定CA签发的证书时,HTTPS连接才能成功。 服务器证书:当监听器端口启用
检查集群关键CRD "packageversions.version.cce.io"是否被删除。 检查集群关键CRD "network-attachment-definitions.k8s.cni.cncf.io"是否被删除。 解决方案 如出现该检查项异常,请联系技术支持人员。 父主题: 升级前检查异常问题排查
问题原因: 工作负载的yaml的中metadata.enable字段为false,导致工作负载被停止,Pod被删除导致工作负载处于已停止状态,如下图所示: 解决方案 将enable字段删除或者将false修改为true。 父主题: 工作负载异常问题排查
检查到您的节点上镜像数量过多(>1000个),可能导致docker启动过慢,影响docker标准输出,影响nginx等功能的正常使用。 解决方案 请手动删除残留的镜像,防止后续升级异常; 删除镜像之后请您重新进行升级前检查 父主题: 升级前检查异常问题排查
该功能依赖ELB能力,使用该功能前请确认当前区域是否支持。ELB已支持的区域请参见数据压缩。 配置数据压缩后,如果您在CCE控制台删除数据压缩配置或在YAML中删除对应的annotation,ELB侧的配置将会保留。 前提条件 已创建一个CCE Standard或CCE Turbo集群,且集群版本满足以下要求:
upgradeFailed:升级失败,表示插件升级失败,可重试升级或卸载后重新安装。 deleting:删除中,表示插件正在删除中。 deleteFailed:删除失败,表示插件删除失败,可重试卸载。 deleteSuccess:删除成功,表示插件删除成功。 available:部分就绪,表示插件下只有部分实例状态为运行中,插件部分功能可用。
在CCE节点上下载helm 2to3 转换插件。 wget https://github.com/helm/helm-2to3/releases/download/v0.10.2/helm-2to3_0.10.2_linux_amd64.tar.gz 解压插件包。 tar -xzvf
/opt/minio mkdir /opt/miniodata cd /opt/minio wget https://dl.minio.io/server/minio/release/linux-amd64/minio chmod +x minio 设置MinIO的用户名及密码。 此方法
客户node节点vdb盘受损,通过重置节点,无法恢复节点。 问题过程: 在一个正常的node节点上,删除lv,删除vg,节点不可用。 重置异常节点,重置过程中,报语法错误,而且节点不可用。 如下图: 问题定位 node节点中vg被删除或者损坏无法识别,为了避免重置的时候误格式化用户的数据盘,需要先手动恢复v