检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
com/volcano-sh/volcano。 Volcano在华为云的应用 Kubeflow和Volcano两个开源项目的结合充分简化和加速了Kubernetes上AI计算进程。当前已经成为越来越多用户的最佳选择,应用于生产环境。Volcano目前已经应用于华为云CCE、CCI产品以及容器批量计算解决
v3。模板管理不再支持Helm v2版本的模板,若您在短期内不能切换至Helm v3,可通过Helm v2 客户端在后台管理v2版本的模板。 约束与限制 单个用户可以上传模板的个数有限制,请以各个Region控制台界面中提示的实际值为准。 CCE使用的Helm版本为v3.8.2,支持上传Helm v3版本语法的模板包。
到期未续费时,资源首先会进入宽限期,宽限期到期后仍未续费,资源状态变为“已冻结”。 超过宽限期仍未续费将进入保留期,如果保留期内仍未续费,资源将被自动删除。 华为云为客户提供充分的时间进行续费与充值,当您的包周期资源到期未续订或按需资源欠费时会依次进入宽限期和保留期,详情请参见宽限期保留期。 在资源
务授权,可以一键进行权限优化,优化您授权的权限。 当您同意授权后,将在IAM中自动创建账号委托,将账号内的其他资源操作权限委托给华为云CCE服务和华为云AOM服务进行操作。关于委托详情,您可参考委托其他云服务管理资源进行了解。自动创建的委托如下: cia_admin_trust
务授权,可以一键进行权限优化,优化您授权的权限。 当您同意授权后,将在IAM中自动创建账号委托,将账号内的其他资源操作权限委托给华为云CCE服务和华为云AOM服务进行操作。关于委托详情,您可参考委托其他云服务管理资源进行了解。自动创建的委托如下: cia_admin_trust
后续操作:释放资源 如果您在完成实践后不需要继续使用集群,请及时清理资源以免产生额外扣费。 准备工作 在开始操作前,请您先注册华为账号并完成实名认证,详情请参见注册华为账号并开通华为云和个人实名认证。 请您保证账户有足够的资金,以免创建集群失败,具体操作请参见账户充值。 步骤一:首次开通CCE并进行授权
练、发布和管理平台。它利用了云原生技术的优势,让用户更快速、方便地部署、使用和管理当前最流行的机器学习软件。 目前Kubeflow 1.0版本已经发布,包含开发、构建、训练、部署四个环节,可全面支持企业用户的机器学习、深度学习完整使用过程。 如下图所示: 通过Kubeflow 1
touch pvc-evs-auto-example.yaml vi pvc-evs-auto-example.yaml 1.9、1.11、1.13版本集群,yaml文件配置示例如下: apiVersion: v1 kind: PersistentVolumeClaim metadata:
tions。 自3.8.0版本起,自定义指标采集将默认不再采集kube-system和monitoring命名空间下的组件指标,若您有相关负载在这两个命名空间下,建议使用Pod Monitor或Service Monitor的方式采集。 自3.8.0版本起,默认不再采集etcd-
7以上及1.13版本集群 请参见1.11.7~1.13 yaml文件配置示例 1.11 ≤ K8s version < 1.11.7 1.11.7之前的1.11版本集群 请参见1.11~1.11.7 yaml文件配置示例 K8s version = 1.9 1.9版本集群 请参见1
13 1.11以上及1.13版本集群 请参见1.11~1.13 yaml文件配置示例 K8s version = 1.9 1.9版本集群 请参见1.9 yaml文件配置示例 1.11 ≤ K8s version ≤ 1.13(1.11以上及1.13版本集群) PV yaml文件配置示例:
容器所访问。如果端口1234上的服务不需要额外的认证(因为假设只有其他localhost进程可以),那么很容易受到利用此bug进行攻击。 华为云提醒使用kube-proxy的用户及时安排自检并做好安全加固。 详情请参考链接:https://github.com/kubernete
kmem泄露问题 故障现象 CentOS 7.6节点内核低于3.10.0-1062.12.1.el7.x86_64的场景下(主要为1.17.9版本集群),反复创建应用时出现cgroup kmem泄露,导致节点内存有空余,但是无法创建新的Pod,并提示报错Cannot allocate
arm内核版本:4.19.90-vhulk2103.1.0.h1144.eulerosv2r9.aarch64 问题根因 EulerOS 4.18版本内核存在调度相关问题,使用CPU cgroup场景下,设置cfs bandwidth,并触发CPU带宽管控,会概率性触发warn级别告警打
集群或容器时,限制同时打开的实例上限数量为15个。 使用CloudShell连接集群 CloudShell是一款用于管理与运维云资源的网页版Shell工具,CCE支持使用CloudShell连接集群,如图1所示,单击“命令行工具”即可在CloudShell中使用kubectl访问集群。
在集群使用IPVS转发的场景下,节点上升级CoreDNS后,可能出现概率性丢包,导致域名解析失败。 问题根因 该问题由IPVS缺陷导致,社区已在IPVS v5.9-rc1版本中修复该问题,详情请参见ipvs: queue delayed work to expire no destination connections
time=1.08 ms 64 bytes from 10.0.1.80: icmp_seq=2 ttl=64 time=0.337 ms 继续访问华为云域名,能够看到已经解析出对应的IP地址,说明能够解析。 # ping cce.cn-east-3.myhuaweicloud.com PING
节点远程登录界面(VNC)打印较多source ip_type日志问题 问题场景 集群版本:v1.15.6-r1版本 集群类型:CCE集群 网络模式:VPC网络 节点操作系统:CentOS 7.6 上述节点的容器进行容器间通信时,由于容器网络组件在VNC界面打印较多source ip_type或者not
选择合适的镜像 Alpine容器镜像内置的musl libc库与标准的glibc存在以下差异: 3.3版本及更早版本的Alpine不支持search参数,不支持搜索域,无法完成服务发现。 并发请求/etc/resolve.conf中配置的多个DNS服务器,导致NodeLocal DNSCache的优化失效。
OpenKruise插件兼容性检查异常处理 检查项内容 检查集群升级时,OpenKruise插件是否存在兼容性问题。 解决方案 Kubernetes社区在1.24版本移除了对dockershim的支持。CCE为兼顾用户使用docker运行时的习惯,在CCE的v1.25及以上的集群版本引入了cri-doc