正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
状态,请耐心等待。 如果工作负载状态为“运行中”,一般无需处理。如果出现状态正常但无法访问的情况,则需要进一步排查集群内访问是否正常。 您可以在CCE控制台界面或者使用kubectl命令查找pod的IP,然后登录到集群内的节点或容器中,使用curl命令等方法手动调用接口,查看结果是否符合预期。
除了使用CCE提供的默认存储类外,您也可以根据需求自定义存储类,可参考自定义存储类应用场景。 通过YAML创建StorageClass 目前CCE默认提供csi-disk、csi-nas、csi-obs等StorageClass,在声明PVC时使用对应StorageClassName,就可以自动创建对应类型PV,并自动创建底层的存储资源。
uest)和实际使用量(used)中的最大值。基于普罗监控数据,可以清晰识别分钟级别的应用资源,进行成本计算。 节点中没有被分配的空闲成本,是如何处理的? 节点中的空闲成本不会被分摊到工作负载或者命名空间成本中,可以作为集群的公共成本分摊到部门。空闲成本在各个部门的分摊比例支持设置。
eus?。 若您自建的Prometheus无法卸载,且需要使用成本洞察、监控中心等功能,当您的自建Prometheus满足兼容性要求时,您可以选择开启“兼容模式”,详情请参见开通监控中心。 兼容模式下无法得到完整的云原生监控插件体验,例如,兼容模式不支持成本优化、无法在AOM页面
进入/usr/local/nvidia/bin目录,执行nvidia-smi -q命令。 若nvidia-smi命令不存在或执行失败,有可能是驱动安装未就绪导致,可以重新安装GPU驱动后,再重试。 观察执行结果中的ECC ERROR(发生ECC故障的记录)。 Correctable Error:不会影响业务,不会触发GPU隔离。
3版本的OpenKruise插件时,kruise-daemon无法在使用docker容器引擎的节点上运行,请使用containerd容器引擎。 您可以选择以下方案之一进行解决: 方案一:关闭OpenKruise插件的kruise-daemon配置,然后重试集群升级。 方案二:将集群中运行
worker数,默认值均为“60”。 volume_attaching_flow_ctrl CCE容器存储插件(Everest)在1分钟内可以挂载EVS卷的最大数量,此参数的默认值“0”表示everest插件不做挂卷限制,此时挂卷性能由底层存储资源决定。 cluster_id 集群ID。
参数 描述 {clusterid} 集群ID,创建集群后,调用获取指定项目下的集群接口获取。 Endpoint Web服务入口点的URL,可以从终端节点(Endpoint)中获取。 uri 资源路径,也即API访问路径。从具体接口的URI模块获取,例如“获取用户Token”API
资源等常用告警和告警查看。 图1 告警中心架构 告警中心 基于AOM服务的告警能力实现,提供集群内的告警快速检索、告警快速配置的能力。用户可以通过告警中心一键配置常用的告警规则。 AOM服务 华为云应用运维管理服务,是云上应用的一站式立体化运维管理平台,是云上监控、告警的基础。 SMN服务
资源等常用告警和告警查看。 图1 告警中心架构 告警中心 基于AOM服务的告警能力实现,提供集群内的告警快速检索、告警快速配置的能力。用户可以通过告警中心一键配置常用的告警规则。 AOM服务 华为云应用运维管理服务,是云上应用的一站式立体化运维管理平台,是云上监控、告警的基础。 SMN服务
点管理“页面查看问题节点池,并单击节点池的“更新”。根据升级前检查的提示信息,修改支持的操作系统,并单击“确定”。 如果节点池下存在节点,可以单击节点操作列的“更多 > 同步”选项,同步已有节点的操作系统,详情请参见同步节点池。 父主题: 升级前检查异常问题排查
加到Jenkins,具体操作请参考设置集群访问凭证。 apiserver:部署应用集群的APIserver地址,需保证从Jenkins集群可以正常访问该地址。 //定义代码仓地址 def git_url = 'https://github.com/lookforstar/jenkins-demo
Key:必须以字母或数字开头,可以包含字母、数字、连字符、下划线和点,最长63个字符;另外可以使用DNS子域作为前缀,例如example.com/my-key,DNS子域最长253个字符。 Value:可以为空或者非空字符串,非空字符串必须以字符或数字开头和结尾,可以包含字母、数字、连字符、下划线和点,最长63个字符。
--------------------------------------------------------+ 从上述输出的信息中,可以看到该节点的GPU驱动版本为460.32.03。 漏洞修复方案 请您根据漏洞影响范围,将节点升级到对应驱动版本进行漏洞修复: 若您升级了NVIDIA
并选择“规格变更”。 图1 变更规格 在弹出的页面中,根据实际需求选择新的“集群规模”。 单击“下一步”进行规格确认,并单击“确定”。 您可以在控制台右上角单击“操作记录”查看集群变更记录。状态从“执行中”变为“成功”,表示集群规格变更成功。 当集群规格变更为1000节点及以上时
的权限过大,给系统带来安全威胁。因此设置所有用户默认的umask值为0077,即用户创建的目录默认权限为700,文件的默认权限为600。 可以在启动脚本里面增加如下内容实现创建出来的目录权限为700: 分别在/etc/bashrc文件和/etc/profile.d/目录下的所有文件中加入“umask
7会偶现触发ext4文件系统卡死,ext4/jbd2会因为死锁而永远挂起。在文件系统上执行I/O的所有任务都将受到影响。 解决方法 临时解决方案:该问题触发后可以通过重启节点临时恢复。 长久解决方案: 若您的集群版本为1.19.16-r0、1.21.7-r0、1.23.5-r0、1.25.1-r0及
aemonSet),ICAgent负责收集工作负载的日志(支持*.log、*.trace和*.out类型的文本日志文件)并上报到AOM,您可以在CCE控制台和AOM控制台查看工作负载的日志。 关于CCE工作负载日志记录的详细介绍和配置方法,请参见容器日志。 父主题: 安全
CCE的数据保护手段和特性 数据保护手段 简要说明 详细介绍 服务发现支持证书配置 CCE集群中的应用服务支持使用HTTPS传输协议,保证数据传输的安全性,您可以根据需求创建四层或七层的访问方式来对接负载均衡器。 七层证书配置 四层证书配置 高可用部署 CCE为您提供高可用的部署方案: 集群支持3个控制节点的高可用模式
目标集群已创建,且集群中包含GPU节点,并已运行GPU相关业务。 在集群中安装CCE AI套件(NVIDIA GPU),且插件的metrics API正常工作。您可以登录GPU节点,执行以下命令进行检查: curl {Pod IP}:2112/metrics 其中{Pod IP}是GPU插件的Pod IP,返回指标结果则为正常。