检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
状态码 状态码 描述 200 表示更新指定节点池成功。 错误码 请参见错误码。 父主题: 节点池管理
* 节点类型 请根据不同的业务诉求选择节点类型,“节点规格”列表中将自动为您筛选该类型下可部署容器服务的规格,供您进一步选择。 本例中选择“弹性云服务器-虚拟机”,使用ECS弹性云服务器作为集群节点。 * 节点规格 请根据业务需求选择相应的节点规格。
多可用区部署:采用多可用区部署可以有效避免单可用区故障造成的整个服务的不可用。
自定义指标 CCE支持采集应用程序中的自定义指标并上传到AOM,为您提供个性化的监控服务。您可以根据特定业务需求,扩展监控指标范围,具体使用方法请参见自定义监控。 父主题: 安全
集群管理(IAM)权限:云服务层面的权限,用于管理CCE集群与周边资源(如VPC、ELB、ECS等)的操作。
集群弹性伸缩配置 弹性扩容配置 CCE集群弹性引擎将综合判断整集群的资源情况,当微服务负载高(CPU/内存使用率过高)时水平扩容,增加Pod的数量以降低负载。 节点扩容条件 负载无法调度时自动扩容:集群中存在负载实例无法调度时,尝试自动扩容已开启弹性伸缩的节点池。
登录CCE控制台,选择一个已安装Prometheus的集群,单击集群名称进入集群,在左侧导航栏中选择“服务”。 单击右上角“YAML创建”,创建一个公网LoadBalancer类型的Service。
- 合理设置“亲和性”和“反亲和性” 可靠性 对外提供服务的应用,如果以“或”的关系同时配置“亲和性”和“反亲和性”,应用升级或者重启后,会概率出现服务无法访问的问题。
后续操作 如果涉及集群跨VPC访问其他服务的场景,您还需要关注所访问的云服务是否允许VPC外部访问,如部分服务可能需要添加白名单或放通安全组才允许访问。对于VPC网络模型的集群,您还需要额外放通容器网段。
如果当前账号已经能满足您的要求,您可以跳过本章节,不影响您使用CCE服务的其它功能。
GPU故障处理 前提条件 如需将GPU事件同步上报至AOM,集群中需安装云原生日志采集插件,您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件 当GPU显卡出现异常时,系统会将出现问题的GPU设备进行隔离,详细事件如表1所示。
选择GPU节点驱动版本 使用GPU加速型云服务器时,需要安装正确的Nvidia基础设施软件,才可以使用GPU实现计算加速功能。在使用GPU前,您需要根据GPU型号,选择兼容配套软件包并安装。 本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。
手动创建的grafana的服务(service)和路由(ingress)无法直接绑定至新的grafana插件,需要手动修改服务的选择器的配置,请及时修改对应的选择器。 方案一:如果当前插件能够升级至3.9.0及以上的版本,请前往“插件中心”页面,单击云原生监控插件的“升级”按钮。
获取方法:在CCE控制台,单击顶部的“服务列表 > 存储 > 弹性文件服务”,在弹性文件服务列表中可以看到“挂载地址”列,即为文件存储的共享路径,如图1。 volumeID 文件存储的ID。
kubectl get ingress 回显如下,表示Ingress服务创建成功。
状态码 状态码 描述 200 表示获取集群升级任务详情成功。 错误码 请参见错误码。 父主题: 集群升级
解决方案 问题场景:节点上存在不可访问的挂载点 节点存在不可访问的挂载点,通常是由于该节点或节点上的Pod使用了网络存储nfs(常见的nfs类型有obsfs、sfs等),且节点与远端nfs服务器断连,导致挂载点失效,所有访问该挂载点的进程均会出现D状态卡死。 登录节点。
登录服务器的管理控制台,完成操作系统的重装,详细步骤请参见切换操作系统。 登录服务器,执行如下命令完成CCE组件和LVM数据的清理。 将如下脚本写入clean.sh文件。
配置建议:根据集群服务间通信的需求,精确配置受众列表。此举确保服务账户令牌仅在授权的服务间进行认证使用,提升安全性。 说明: 不正确的配置可能导致服务间认证通信失败,或令牌的验证过程出现错误。
状态码 状态码 描述 204 No Content 错误码 请参见错误码。 父主题: 标签管理