正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Token的有效期为24小时,需要使用一个Token鉴权时,可以先缓存起来,避免频繁调用。 Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求消息头,从而通过身份认证,获得操作API的权限。 T
业务上报nvidia版本和cuda版本不匹配? 容器中查看cuda的版本,执行如下命令: cat /usr/local/cuda/version.txt 然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。 相关链接 工作负载异常:GPU节点部署服务报错
您可以将鼠标悬停在图表上,以便查看每分钟的监控数据。 CPU:单位时间内集群CPU使用情况的统计。 内存:单位时间内集群内存使用情况的统计。 PVC存储状态:PVC和PV的绑定情况。 Pod数量状态趋势:实时监控集群Pod的状态。 Pod总重启次数趋势:近5分钟的集群的Pod重启次数总和。 节点状态趋势:实时监控集群节点的状态。
名为nginx的Pod。 Namespace的隔离说明 Namespace只能做到组织上划分,对运行的对象来说,它不能做到真正的隔离。举例来说,如果两个Namespace下的Pod知道对方的IP,而Kubernetes依赖的底层网络没有提供Namespace之间的网络隔离的话,那这两个Pod就可以互相访问。
绑定EIP的Pod,如果要被公网成功访问,需要添加放通相应请求流量的安全组规则。 单个Pod只能绑定单个EIP。 创建Pod时,可指定相关的annotation配置EIP的属性,创建完成后,更新EIP相关的annotation均无效。 与Pod关联的EIP不要通过弹性公网IP的con
kubelet异常时,节点显示不可用,请参考集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 问题场景二:cce-pause版本异常 检测到当前kubelet依赖的pause容器镜像版本非cce-pause:3.1,继续升级将会导致批量Pod重启,当前暂不支持升级,请联系技术支持人员。 父主题: 升级前检查异常问题排查
使用的文件系统的可用inodes数的百分比 imagefs.available,容器运行时存放镜像等资源的文件系统的可用容量的百分比 imagefs.inodesFree,容器运行时存放镜像等资源的文件系统的可用inodes数的百分比 pid.available,留给分配 Pod 使用的可用 PID 数的百分比
API、存储管理生效,对应需要调用接口访问的集群。 表1 URL中的参数说明 参数 描述 {clusterid} 集群ID,创建集群后,调用获取指定项目下的集群接口获取。 Endpoint Web服务入口点的URL,可以从终端节点(Endpoint)中获取。 uri 资源路径,也即API访问路径。从具体接口的URI
单击“安装”,安装插件的任务即可提交成功。 创建GPU节点。 在左侧菜单栏选择“节点管理”,单击右上角“创建节点”,在弹出的页面中配置节点的参数。 选择一个“GPU加速型”的节点规格,其余参数请根据实际需求填写,详情请参见创建节点。 完成配置后,单击“下一步:规格确认”,确认所设置的服务选型参
工作负载异常:Pod一直处于Terminating状态 工作负载异常:已停止 工作负载异常:GPU节点部署服务报错 工作负载异常:实例无法写入数据 挂载文件存储的节点,Pod创建删除卡死 容器异常退出状态码 父主题: 工作负载
namespace 集群中存在的命名空间 default 支持初始化时配置,不支持后续修改 - 命名空间为资源的隔离维度,一旦指定后不允许修改 配置建议: 建议按照业务、部门等归属合理划分命名空间,避免将大量资源堆叠在default命名空间下 配置项标签 配置项附带的标签 参数名 取值范围
namespace 集群中存在的命名空间 default 支持初始化时配置,不支持后续修改 - 命名空间为资源的隔离维度,一旦指定后不允许修改 配置建议: 建议按照业务、部门等归属合理划分命名空间,避免将大量资源堆叠在default命名空间下 标签 密钥附带的标签 参数名 取值范围 默认值
面定义的规则必须强制满足(require)才会调度Pod到节点上。 后半段IgnoredDuringExecution表示已经在节点上运行的Pod不需要满足下面定义的规则,即去除节点上的某个标签,那些需要节点包含该标签的Pod不会被重新调度。 另外操作符operator的值为In
删除节点池时会先删除节点池中的节点,原有节点上的工作负载实例会自动迁移至其他节点池的可用节点。 如果工作负载实例具有特定的节点选择器,且如果集群中的其他节点均不符合标准,则工作负载实例可能仍处于无法安排的状态。 节点池开启弹性伸缩 开启弹性伸缩后,节点池将根据集群负载情况自动创建或删除节点池内的节点。
如下配置示例适用于Kubernetes 1.13及以下版本的集群。 操作步骤 请参见通过kubectl连接集群,使用kubectl连接集群。 执行如下命令,配置名为“evs-deployment-example.yaml”的创建无状态工作负载的yaml文件。 touch evs-deployment-example
等待Pod调度到其他节点后,排查文件系统异常的原因,并进行恢复或规避。 执行以下命令,取消节点不可调度标记。 kubectl uncordon <node-name> 异常Pod清理 本服务kubelet的GC回收机制与社区保持一致,在清除Pod的Owner(例如Deployment)后,异常Pod也会随之清理。
api版本,默认为v3 kind String 类型 metadata Metadata object 基本信息,为集合类的元素类型,包含一组由不同名称定义的属性 items Array of PrecheckClusterTask objects 集群检查任务列表 表3 Metadata
ago) 97s 获取Java程序因为OOM产生的文件。 前往CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“存储”,找到jvm-sfs-pvc的存储卷声明,单击关联的存储卷PV名称。 自动跳转到PVC对应的存储卷,单击关联的卷名称。 自动跳转到弹性文件服务SFS 3.0控制台,复制挂载命令。
判断方法 在CCE新Console上的CCE Turbo集群的集群信息下的“节点管理”处,查看“运行时版本”,若运行时为containerd且版本号小于 1.4.1-96则涉及该漏洞。 漏洞修复方案 使用可信的镜像,避免使用来源不明的第三方镜像,推荐使用容器镜像服务SWR。 CCE已提供大于1
CCE容器弹性引擎(cce-hpa-controller)插件是一款CCE自研的插件,能够基于CPU利用率、内存利用率等指标,对无状态工作负载进行弹性扩缩容。 主要功能 支持按照当前实例数的百分比进行扩缩容。 支持设置一次扩缩容的最小步长。 支持按照实际指标值执行不同的扩缩容动作。 约束与限制 cce-hpa-c