检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
云原生异构计算插件 CCE AI套件(NVIDIA GPU) CCE AI套件(Ascend NPU) 父主题: 插件
件系统卡死问题 IPVS缺陷导致节点上升级CoreDNS后出现概率性解析超时 节点ARP表项超过限制 EulerOS 2.9内核缺陷导致虚拟机卡住 父主题: 节点
Ingress控制器 Kubernetes Metrics Server CCE容器弹性引擎 CCE突发弹性引擎(对接CCI) CCE AI套件(NVIDIA GPU) CCE AI套件(Ascend NPU) Volcano调度器 CCE密钥管理(对接 DEW) CCE容器网络扩展指标 节点本地域名解析加速
17 v1.19 v1.21 v1.23 新增beta检查项ScheduledEvent,支持通过metadata接口检测宿主机异常导致虚拟机进行冷热迁移事件。该检查项默认不开启。 0.8.10 1.16.3 v1.17 v1.19 v1.21 v1.23 新增ResolvConf配置文件检查。
n的更新请求到达apiserver,服务器端将对比请求数据与服务器中数据的资源版本号,如果不一致,则表明在本次更新提交时,服务端对象已被修改,此时apiserver将返回冲突错误(409)。客户端需重新获取服务端数据,重新修改后再次提交到服务器端;而资源配额对每个命名空间的资源消
弹性云服务器-虚拟机:使用虚拟化技术的弹性云服务器作为集群节点。 弹性云服务器-物理机:使用擎天架构的裸金属服务器作为集群节点。 裸金属服务器:使用传统裸金属服务器作为集群节点。选择数据盘时支持使用裸金属服务器自带的本地盘。 CCE Turbo集群支持以下类型: 弹性云服务器-虚拟机:使用虚拟化的弹性云服务器作为集群节点。CCE
在CCE集群中部署使用Kubeflow Kubeflow部署 Tensorflow训练 使用Kubeflow和Volcano实现典型AI训练任务 父主题: 批量计算
21-25746) containerd容器进程权限提升漏洞公告(CVE-2022-24769) CRI-O容器运行时引擎任意代码执行漏洞(CVE-2022-0811) linux内核导致的容器逃逸漏洞公告(CVE-2022-0492) containerd镜像Volume非安全
ELB四层健康检查导致java报错:Connection reset by peer Service事件:Have no node to bind,如何排查? 为什么登录虚拟机VNC界面会间歇性出现Dead loop on virtual device gw_11cbf51a, fix it urgently?
加密套件的优先顺序为ecc套件、rsa套件、tls1.3协议的套件 (即支持ecc又支持rsa) 请配置正确的安全策略ID 服务器证书ID 监听器对接已有的服务器证书和SNI证书,推荐使用此配置作为HTTPS监听器的证书配置 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation:
排查项六:同一pod中container端口冲突导致 Error: failed to start container "filebeat": Error response from daemon: OCI runtime create failed: container_linux.go:330:
Pod PodTemplate Container配置 容器resource资源
选择GPU节点驱动版本 使用GPU加速型云服务器时,需要安装正确的Nvidia基础设施软件,才可以使用GPU实现计算加速功能。在使用GPU前,您需要根据GPU型号,选择兼容配套软件包并安装。 本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。 如何选择GPU节点驱动版本
successfulJobsHistoryLimit 无 无 允许 - 失败任务记录数量 参数名 取值范围 默认值 是否允许修改 作用范围 failedJobsHistoryLimit 无 无 允许 - 父主题: 定时任务
Server插件版本发布记录 CCE容器弹性引擎插件版本发布记录 CCE突发弹性引擎(对接CCI)插件版本发布记录 CCE AI套件(NVIDIA GPU)版本发布记录 CCE AI套件(Ascend NPU)版本发布记录 Volcano调度器版本发布记录 CCE密钥管理(对接 DEW)插件版本发布记录
当不再使用云服务资源时,您可以将其退订或删除,从而避免持续产生费用。 包年/包月资源 对于包年/包月计费模式的资源,例如包年/包月的集群、包年/包月的节点(弹性云服务器)等,用户在购买时会一次性付费,服务将在到期后自动停止使用。 如果在计费周期内不再使用包年/包月资源,您可以执行退订操作,系统将根据资
置是否可以正常解析域名。 排查项一:节点能否连接互联网 登录ECS控制台。 查看节点对应的弹性云服务器是否已绑定弹性IP或者配置NAT网关。 如图1,若弹性IP一栏有IP地址,表示已绑定弹性IP;若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP 排查项二:节点是否配置网络ACL
节点存在不可访问的挂载点,通常是由于该节点或节点上的Pod使用了网络存储nfs(常见的nfs类型有obsfs、sfs等),且节点与远端nfs服务器断连,导致挂载点失效,所有访问该挂载点的进程均会出现D状态卡死。 登录节点。 在节点上新建一个脚本文件(例如/tmp/check_hang_mount
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 CCE AI套件(NVIDIA GPU)插件使用DCGM-Exporter监控GPU指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理
时,如何解决? CCE节点上监听的端口列表 GPU节点使用nvidia驱动启动容器排查思路 CCE节点NTP时间不同步如何解决? Containerd节点业务容器标准输出日志写入过快导致节点数据盘使用率过高 为什么kubectl top命令查看节点内存使用超过100%? CCE节