检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
容器id 业务上报nvidia版本和cuda版本不匹配? 容器中查看cuda的版本,执行如下命令: cat /usr/local/cuda/version.txt 然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。 相关链接 工作负载异常:GPU节点部署服务报错
模,因此对具有明显周期性的工作负载具有更佳效果。 AHPA启动后拉取指定的工作负载过去一定时间的监控数据(至少一周,至多八周),利用统计学原理分析建模。随后每分钟一次,根据当前时间点的历史监控数据,结合未来一段时间窗口的历史数据,给出当前时间点工作负载的推荐副本数,提前准备Pod
通云服务后,系统会根据服务类型自动关联该服务的监控指标,帮助用户实时掌握云服务的各项性能指标,精确掌握云服务的运行情况。 建议有存储故障感知诉求的用户配套云监控服务CES的云服务监控能力使用,实现对底层存储的监控和告警通知。 父主题: 存储管理
cker的支持。 解决方案 若您的节点的运行时非containerd,您可通过节点重置功能重置节点的运行时为containerd。 如果您仍想在1.27以上集群中创建并使用docker节点,可跳过该告警,但推荐您尽快切换至containerd,它提供了更出色的用户体验和更强大的功能。
此外,CCE为所有客户提供相同的信息,以平等地保护所有客户。CCE不会向个别客户提供事先通知。 最后,CCE不会针对产品中的漏洞开发或发布可利用的入侵代码(或“验证性代码”)。 父主题: 漏洞公告
传文件涉及大量报文复制,会占用内存,建议把Proxy内存根据实际场景调高后再进行访问和上传。 可以考虑把该服务从网格内移除出去,因为这里的Proxy只是转发包,并没有做其他事情,如果是通过Ingress Gateway走进来的话,这个服务的灰度发布功能是不受影响的。 父主题: 存储管理
请确保您自建的Prometheus满足以下条件,否则无法正常共存运行: 若您的Prometheus不是基于Operator社区的KubePrometheus构建的,则满足兼容性要求。 若您的Prometheus是基于Operator社区的KubePrometheus构建的,则CRD
自定义资源名称的单数形式 参数名 取值范围 默认值 是否允许修改 作用范围 spec.names.singular 无 无 允许 CCE Standard/CCE Turbo 名称的单数形式,作为命令行使用时和显示时的别名 自定义资源类型的单数类型 自定义资源类型的单数类型 参数名
快照,指云硬盘数据在某个时刻的完整复制或镜像,是一种重要的数据容灾手段,当数据丢失时,可通过快照将数据完整的恢复到快照时间点。 您可以创建快照,从而快速保存指定时刻云硬盘的数据。同时,您还可以通过快照创建新的云硬盘,这样云硬盘在初始状态就具有快照中的数据。 使用须知 快照功能仅支持v1
界面中提示的实际值为准。 CCE使用的Helm版本为v3.8.2,支持上传Helm v3版本语法的模板包。 模板若存在多个版本,则消耗对应数量的模板配额。 由于模板的操作权限同时具有较高的集群操作权限,因此租户应当谨慎授予用户对于模板生命周期管理的权限,包括上传模板的权限,以及创建、删除和更新模板实例的权限。
该错误表示IAM用户没有编程访问权限。 解决方案 请联系主账号管理员,登录统一身份认证服务。 找到需要修改的IAM用户,单击用户名称。 修改“访问方式”,同时勾选“编程访问”和“管理控制台访问”。 图1 修改IAM用户访问方式 单击“确定”。 父主题: 权限
1-63个字符,可包含小写英文字母,数字和中划线,并以小写字母开头,小写英文字母或数字结尾 无 允许 CCE Standard/CCE Turbo 命名空间(Namespace) 提供一种机制,将同一集群中的资源划分为相互隔离的组。 同一命名空间内的资源名称要唯一,但跨命名空间时没有这个要求。
节点运维 节点预留资源策略说明 默认数据盘空间分配说明 节点可创建的最大Pod数量说明 CCE节点kubelet和runtime组件路径与社区原生配置差异说明 将节点容器引擎从Docker迁移到Containerd 节点系统参数优化 配置节点故障检测策略 创建节点时执行安装前/后脚本
affinity/anti-affinity 表示Pod亲和/反亲和不满足。 解决方案: 在设置“工作负载间的亲和性”和“工作负载和节点的亲和性”时,需确保不要出现互斥情况,否则工作负载会部署失败。 若工作负载配置了节点亲和性,需确保亲和的节点标签中supportContainer设置为true,否则会导致pod
/opt/cloud/cce/kubernetes/kubelet/pki/ 备份节点上的证书文件kubelet-client-current.pem。 删除节点上残留的kubelet-server-*证书文件和证书软链文件。 find -maxdepth 1 -type f -name 'kubelet-server-*
手动创建的grafana的服务(service)和路由(ingress)无法直接绑定至新的grafana插件,需要手动修改服务的选择器的配置,请及时修改对应的选择器。 方案一:如果当前插件能够升级至3.9.0及以上的版本,请前往“插件中心”页面,单击云原生监控插件的“升级”按钮
单击“安装”,安装插件的任务即可提交成功。 创建GPU节点。 在左侧菜单栏选择“节点管理”,单击右上角“创建节点”,在弹出的页面中配置节点的参数。 选择一个“GPU加速型”的节点规格,其余参数请根据实际需求填写,详情请参见创建节点。 完成配置后,单击“下一步:规格确认”,确认所设置的服务选型参
使用注解为Pod绑定安全组 使用场景 云原生网络2.0网络模式下,Pod使用的是VPC的弹性网卡/辅助弹性网卡,可以通过配置Pod的annotation为Pod配置安全组。 支持两种方式的安全组配置: Pod的网卡使用annotation配置的安全组,对应annotation配置:yangtse.i
Pressure情况(心跳)都依赖于eviction manager的检测。心跳上报和eviction manager的检测分别由两个协程并发执行。正常情况下,如果先执行eviction manager的检测,再执行心跳上报,则kubelet可以上报正确的磁盘情况,并不会删除污点。异常情况下,如果先执行心跳上报,再执行eviction
检查项内容 系统会扫描过去一天的审计日志,检查用户是否调用目标K8s版本已废弃的API。 由于审计日志的时间范围有限,该检查项仅作为辅助手段,集群中可能已使用即将废弃的API,但未在过去一天的审计日志中体现,请您充分排查。 解决方案 检查说明 根据检查结果,检测到您的集群通过kubectl