检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何使容器重启后所在容器IP仍保持不变? 如何确认网卡不被集群占用? 删除子网后如何删除安全组规则? 不同命名空间下的Ingress共用监听器时如何同步生效的证书? 如何确认监听器配置生效的Ingress 父主题: 网络管理
单击节点池名称后的“更多 > 配置管理”。 在侧边栏滑出的“配置管理”窗口中,修改“容器引擎Docker/Containerd配置”的image-pull-progress-timeout参数。该参数用于设置镜像拉取的超时时长。 单击“确定”,完成配置操作。 排查项七:无法连接镜像仓库
器不调度到GPU节点上。 方案2: 建议您安装高版本的GPU驱动,通过kubectl更新GPU插件的配置,增加配置如下: tolerations: - operator: "Exists" 增加该配置后,可以使GPU插件驱动能够正常安装到打了污点的GPU节点上。 父主题: 节点运行
为Nginx Ingress配置重定向规则 配置永久重定向规则 如果您想将访问请求永久重定向至某个目标网址(状态码为301),您可以通过nginx.ingress.kubernetes.io/permanent-redirect注解进行配置。例如将所有内容永久重定向到www.example
类型的Service,支持从外部访问Prometheus。 监控NGINX Ingress控制器指标 在集群中部署使用NGINX Ingress控制器时,打开“开启指标采集”开关后将自动上报NGINX Ingress控制器指标。 前提条件 集群中已安装3.9.5及以上版本云原生监控插件插件。
设置镜像拉取策略 创建工作负载会从镜像仓库拉取容器镜像到节点上,当前Pod重启、升级时也会拉取镜像。 默认情况下容器镜像拉取策略imagePullPolicy是IfNotPresent,表示如果节点上有这个镜像就直接使用节点已有镜像,如果没有这个镜像就会从镜像仓库拉取。 容器镜像拉取
String 插件的版本 driver_version 是 String 插件安装驱动时,插件里负责安装驱动的Pod的镜像tag,一般与device_version相同 obs_url 是 String 当从默认驱动地址中下载GPU驱动时,该值为GPU的驱动地址 swr_addr 是
您可单击“指标异常”,按照修复建议提示修复。 自定义检查项配置 登录CCE控制台,单击集群名称进入集群。 在左侧选择“节点管理”,切换至“节点”页签,单击“故障检测策略”。 在跳转的页面中查看当前检查项配置,单击检查项操作列的“编辑”,自定义检查项配置。 当前支持以下配置: 启用/停用:自定义某个检查项的开启或关闭。
节点NetworkManager检查异常处理 节点ID文件检查异常处理 节点配置一致性检查异常处理 节点配置文件检查异常处理 CoreDNS配置一致性检查异常处理 节点Sudo检查异常处理 节点关键命令检查异常处理 节点sock文件挂载检查异常处理 HTTPS类型负载均衡证书一致性检查异常处理 节点挂载检查异常处理
lugin)。 单击“安装”,安装插件的任务即可提交成功。 创建GPU节点。 在左侧菜单栏选择“节点管理”,单击右上角“创建节点”,在弹出的页面中配置节点的参数。 选择一个“GPU加速型”的节点规格,其余参数请根据实际需求填写,详情请参见创建节点。 完成配置后,单击“下一步:规格
开启gzip压缩 配置自定义EIP 转发策略配置 配置灰度发布 配置URL重定向 配置Rewrite重写 配置HTTP重定向到HTTPS 配置转发规则优先级 配置自定义Header转发策略 配置跨域访问 配置高级转发规则 配置高级转发动作 在同一个集群中,多个Ingress可以使用同一个
修改集群配置 集群 updateConfiguration 创建节点池 节点池 createNodePool 更新节点池 节点池 updateNodePool 删除节点池 节点池 claimNodePool 迁移节点池 节点池 migrateNodepool 修改节点池配置 节点池
04建议使用515及以上版本驱动。 插件安装完成后,GPU 虚拟化和节点池驱动配置请前往“配置中心 > 异构资源配置”页进行设置。 单击“安装”,安装插件的任务即可提交成功。 卸载插件将会导致重新调度的GPU Pod无法正常运行,但已运行的GPU Pod不会受到影响。 验证插件 插件安装完成后,在GPU
集群调度器配置 开启GPU共享 是否开启GPU共享能力 参数名 取值范围 默认值 是否允许修改 作用范围 enable-gpu-share true/false true 允许 CCE Standard/CCE Turbo 配置建议: true 默认调度器 集群调度器选择开关,用户可自定义调度器模式。
制。 解决方案 检测到目标cce-controller-hpa插件版本存在兼容性限制,需要集群安装能提供metrics api的插件,例如metrics-server; 请您在集群中安装相应metrics插件之后重试检查 父主题: 升级前检查异常问题排查
”。 如果选择安装grafana组件,也可能出现同样的问题。 图1 插件实例调度失败 问题原因 当出现以上报错内容,说明集群中已存在prometheus实例需要的存储卷,但该存储卷对应的云硬盘未满足与节点同一可用区的要求,导致调度失败。这可能是由于集群并非首次安装kube-prometheus-stack插件引起。
应用场景 灵活迁移 通过将弹性网卡从云服务器实例解绑后再绑定到另外一台服务器实例,保留已绑定私网IP、弹性公网IP和安全组策略,无需重新配置关联关系,将故障实例上的业务流量快速迁移到备用实例,实现服务快速恢复。 业务分离管理 可以为服务器实例配置多个分属于同一VPC内不同子网的弹
执行/usr/local/nvidia/bin/nvidia-smi,观测目标GPU卡的物理显存,记录其序号。 执行cat /proc/xgpu/{GPU卡序号}/meminfo,注意替换命令中的{GPU卡序号}为步骤2获取的GPU卡序号,观测GPU虚拟化的可用显存。 比较步骤2和步骤3的可用显存。
package路径。 安装Packer 手动下载并安装HashiCorp Packer,建议参考官方指导执行。 Packer版本要求:packer = 1.10.0 以CentOS 7执行机为例,执行如下命令自动安装packer(以官方指导为准): # 配置Packer的yum源后安装Packer
使用HTTP/HTTPS协议 配置服务器名称指示(SNI) 动态调整后端云服务器权重 跨集群访问 pass-through能力 黑名单/白名单设置 主机网络 设置超时时间 添加资源标签 使用HTTP/2 开启gzip压缩 配置ELB后端优雅退出 配置获取客户端IP 配置自定义EIP 配置区间端口监听