检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签。 找到目标节点,单击节点后的“更多 > 移除”。 图1 移除节点 您还可以选中多个节点一起移除,如下图所示。 图2 一次移除多个节点 在弹出的“移除节点”对话框中,配置重装操作系统需要的登录信息,单击“是”,等待完成节点移除。
进入/usr/local/nvidia/bin目录,执行nvidia-smi -q命令。 若nvidia-smi命令不存在或执行失败,有可能是驱动安装未就绪导致,可以重新安装GPU驱动后,再重试。 观察执行结果中的ECC ERROR(发生ECC故障的记录)。 Correctable Error:不会影响业务,不会触发GPU隔离。
3版本的OpenKruise插件时,kruise-daemon无法在使用docker容器引擎的节点上运行,请使用containerd容器引擎。 您可以选择以下方案之一进行解决: 方案一:关闭OpenKruise插件的kruise-daemon配置,然后重试集群升级。 方案二:将集群中运行
> 安全组”。 在安全组界面,单击操作列的“管理实例”。 在“服务器”页签,并单击“添加”。 勾选需要加入安全组的服务器,单击“确定”。您也可以通过服务器的名称、ID、私有IP地址、状态、企业项目或标签进行筛选。 通过修改左下角的单页最大显示条数,您可至多一次性添加20台服务器至安全组中。
名,并修改数据库中的site_url和主url值,具体操作可参考更改站点URL。 最后在浏览器上访问迁移后的Wordpress应用新地址,可以看到迁移前发布的文章,说明持久卷的数据还原成功。 业务流量切换 由运维人员做DNS切换,将流量引到新集群。 DNS流量切换:调整DNS配置实现流量切换。
ce访问应用A。 原因: Kubernetes的亲和反亲和调度策略是满足一个就可以调度成功,此时是满足了节点3、节点4反亲和性调度策略。 设置应用生命周期中的“停止前处理”,确保升级或者实例删除时可以提前将实例中运行的业务处理完成 可靠性 如果没有配置,用户在应用升级时,Pod会
资源等常用告警和告警查看。 图1 告警中心架构 告警中心 基于AOM服务的告警能力实现,提供集群内的告警快速检索、告警快速配置的能力。用户可以通过告警中心一键配置常用的告警规则。 AOM服务 华为云应用运维管理服务,是云上应用的一站式立体化运维管理平台,是云上监控、告警的基础。 SMN服务
点管理“页面查看问题节点池,并单击节点池的“更新”。根据升级前检查的提示信息,修改支持的操作系统,并单击“确定”。 如果节点池下存在节点,可以单击节点操作列的“更多 > 同步”选项,同步已有节点的操作系统,详情请参见同步节点池。 父主题: 升级前检查异常问题排查
拟机(VM)的root访问权限。CCE节点镜像不使用Kubernetes Image Builder构建,不受该漏洞的影响。 判断方法 您可以在节点上执行以下命令: id builder 如果节点不存在builder用户则不受该漏洞影响。 漏洞修复方案 CCE公共镜像不受该漏洞影
ex)。您可以使用该指标的gpu_index标签筛选XGPU指标。如: cce_gpu_memory_used{gpu_index="0|1"} 16000 表示GPU0卡上xgpu_index为1的XGPU内存使用量为16000字节。 如您不需要查看XGPU指标,可以通过标签正则进行过滤,如:
--------------------------------------------------------+ 从上述输出的信息中,可以看到该节点的GPU驱动版本为460.32.03。 漏洞修复方案 请您根据漏洞影响范围,将节点升级到对应驱动版本进行漏洞修复: 若您升级了NVIDIA
登录CCE控制台,进入集群。 在左侧导航栏中选择“插件中心”,单击CoreDNS插件的“编辑”按钮,进入插件详情页。 在“规格配置”下配置CoreDNS参数规格。 您可以根据业务需求调整不同的副本数、CPU配额和内存配额,来调整CoreDNS所能提供的域名解析QPS。 单击“确定”,完成配置下发。 合理配置DNS存根域
弹性网卡,查看该子网下的“弹性网卡”和“辅助弹性网卡”。 查看网卡“名称”或者“描述”,如果其中包含当前集群的ID,表示网卡被集群占用。您可以在CCE控制台的集群“总览”页中复制集群ID。 如果需要清理集群内使用的子网网卡,需要提交工单处理。 父主题: 网络指导
并选择“规格变更”。 图1 变更规格 在弹出的页面中,根据实际需求选择新的“集群规模”。 单击“下一步”进行规格确认,并单击“确定”。 您可以在控制台右上角单击“操作记录”查看集群变更记录。状态从“执行中”变为“成功”,表示集群规格变更成功。 当集群规格变更为1000节点及以上时
的权限过大,给系统带来安全威胁。因此设置所有用户默认的umask值为0077,即用户创建的目录默认权限为700,文件的默认权限为600。 可以在启动脚本里面增加如下内容实现创建出来的目录权限为700: 分别在/etc/bashrc文件和/etc/profile.d/目录下的所有文件中加入“umask
7会偶现触发ext4文件系统卡死,ext4/jbd2会因为死锁而永远挂起。在文件系统上执行I/O的所有任务都将受到影响。 解决方法 临时解决方案:该问题触发后可以通过重启节点临时恢复。 长久解决方案: 若您的集群版本为1.19.16-r0、1.21.7-r0、1.23.5-r0、1.25.1-r0及
aemonSet),ICAgent负责收集工作负载的日志(支持*.log、*.trace和*.out类型的文本日志文件)并上报到AOM,您可以在CCE控制台和AOM控制台查看工作负载的日志。 关于CCE工作负载日志记录的详细介绍和配置方法,请参见容器日志。 父主题: 安全
个Pod访问该ECS,您可以只将该Pod的IP地址添加到ECS安全组的入方向规则中。 进入控制台首页,单击左上角的,在展开的列表中单击“计算 > 弹性云服务器 ECS”,单击相应的弹性云服务器名称。 界面上方单击“安全组”,界面左方单击“配置规则”。可以发现在“入方向规则”中源地址有网段192
CCE的数据保护手段和特性 数据保护手段 简要说明 详细介绍 服务发现支持证书配置 CCE集群中的应用服务支持使用HTTPS传输协议,保证数据传输的安全性,您可以根据需求创建四层或七层的访问方式来对接负载均衡器。 七层证书配置 四层证书配置 高可用部署 CCE为您提供高可用的部署方案: 集群支持3个控制节点的高可用模式
使用自定义参数完成CoreDNS隔离部署 建议CoreDNS插件与资源使用率高的负载隔离部署,防止因业务波动导致CoreDNS性能下降或不可用。您可以通过自定义参数完成CoreDNS独占节点部署。 节点数应大于CoreDNS副本数,避免单个节点上运行多个CoreDNS副本。 登录CCE控