检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群外资源迁移 若您的集群不涉及表1中的集群外资源,或迁移后无需使用其他云服务进行资源替换,可忽略本章节内容。 容器镜像迁移 为保证集群迁移后容器镜像可正常拉取,提升容器部署效率,十分建议您将私有镜像迁移至容器镜像服务SWR。CCE配合SWR为您提供容器自动化交付流水线,采用并行
使用Jenkins构建流水线 获取长期的docker login命令 在Jenkins安装部署过程中,已经完成了容器中执行docker命令的配置(参见9),故Jenkins对接SWR无需额外配置,可直接执行docker命令。仅需获取长期有效的SWR登录指令,具体步骤请参见获取长期有效docker
的用户(如账号所在的admin用户组默认拥有此权限),才能在CCE控制台命名空间权限页面进行授权操作。 配置命名空间权限(控制台) CCE中的命名空间权限是基于Kubernetes RBAC能力的授权,通过权限设置可以让不同的用户或用户组拥有操作不同Kubernetes资源的权限。
容器启动失败 日志或事件信息 问题原因与解决方案 日志中存在exit(0) 容器中无进程。 请调试容器是否能正常运行。 排查项一:(退出码:0)容器中无持续运行的进程 事件信息:Liveness probe failed: Get http… 日志中存在exit(137) 健康检查执行失败。
会处于“运行中”状态。例如,冻结前处于休眠状态的集群,解冻后也会处于“运行中”状态。 集群为什么被释放 客户购买产品后,如果没有及时的进行续费或充值,将进入宽限期。如宽限期满仍未续费或充值,将进入保留期。在保留期内资源将停止服务。保留期满仍未续费或充值,存储在云服务中的数据将被删
osts”表中,若迁移成功,数据库中的内容也将会被全量搬迁至新集群,可依此进行PV数据迁移校验。 前提条件 请在迁移前提前清理原集群中异常的Pod资源。当Pod状态异常但是又挂载了PVC的资源时,在集群迁移后,PVC状态会处于pending状态。 请确保CCE侧集群中没有与被迁移
点池无法调度,也要能将Pod调度到旧节点池上。节点池替换、节点滚动升级等场景中,业务不需要也不应该感知,所以不会在业务负载中声明节点亲和配置,而需要在集群调度层面,使用软亲和方式,在业务变更时将Pod尽量调度到新的节点池上。 Volcano的目标是在业务负载未配置节点软亲和时,在
IAM项目和企业项目,表示此授权项对应的自定义策略,可以在IAM和企业管理两个服务中给用户组授权并生效。如果仅支持IAM项目,不支持企业项目,表示仅能在IAM中给用户组授权并生效,如果在企业管理中授权,则该自定义策略不生效。关于IAM项目与企业项目的区别,详情请参见:IAM与企业管理的区别。
值生效方式中的约束调度工作负载。新下发的工作负载将被优先或强制调度到其他节点,节点中已经运行的工作负载不受影响。 80 内存真实负载阈值 节点内存真实利用率超过该阈值后,会根据真实负载阈值生效方式中的约束调度工作负载。新下发的工作负载将被优先或强制调度到其他节点,节点中已经运行的工作负载不受影响。
https://github.com/BVLC/caffe/blob/master/examples/00-classification.ipynb 另存链接中里面小猫图片。 data/ilsvrc12/* https://github.com/BVLC/caffe/tree/master/data/ilsvrc12
伸缩范围。 前提条件 集群中已安装1.5.2及以上版本的CCE容器弹性引擎。 集群中已安装云原生监控插件,且开启监控数据上报至AOM服务,详情请参见云原生监控插件。 约束与限制 AHPA策略仅支持1.23及以上版本的集群。 1.19.10及以上版本集群中,如果使用HPA策略对挂载
HPA策略仅支持1.13及以上版本的集群创建。 1.19.10以下版本的集群中,如果使用HPA策略对挂载了EVS卷的负载进行扩容,当新Pod被调度到另一个节点时,会导致之前Pod不能正常读写。 1.19.10及以上版本集群中,如果使用HPA策略对挂载了EVS卷的负载进行扩容,新Pod会因为无法挂载云硬盘导致无法成功启动。
141.03 470.141.03 获取驱动链接-公网地址 登录CCE控制台。 创建节点,在“节点规格”处选择要创建的GPU节点,选中后下方显示的信息中可以看到节点的GPU显卡型号。 图1 查看显卡型号 登录到NVIDIA驱动下载页面,搜索对应的驱动信息,其中操作系统必须选Linux
负载均衡器配置:监听器配置 对外访问端口 路由对接的负载均衡器对外暴露的访问端口 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation: kubernetes.io/elb.port 1-65535 无 允许 CCE Standard/CCE Turbo
添加Samples的速率 Head中Series数量 个 head中Series数量 Head块数量 个 head块数量 查询速率 次/秒 每秒执行普罗query的次数 P90查询耗时 秒 不同分片的90%的操作的查询耗时 远端样本滞后比率 秒 存储在WAL中的样本的最高时间戳与远程写入成功的最高时间戳的比率
其他服务CUDA版本也在这2个范围内 在GPU服务容器中发现一些新增的文件core.*,在以前的部署中没有出现过。 问题定位 GPU插件的驱动版本较低,单独下载驱动安装后正常。 工作负载中未声明需要gpu资源。 建议方案 节点安装了gpu-beta(gpu-device-plugin
集群权限(IAM系统策略授权) 默认情况下,管理员创建的IAM用户没有任何权限,需要将其加入用户组,并给用户组授予策略或角色,才能使得用户组中的用户获得对应的权限,这一过程称为授权。授权后,用户就可以基于被授予的权限对云服务进行操作。 CCE部署时通过物理区域划分,为项目级服务。授
顺序,实现资源管理的最优化。在使用默认扩缩容优先级策略的情况下,扩容过程中Pod优先被调度到包周期的节点,其次被调度到按需计费的节点,最后被调度到virtual-kubelet节点(弹性至CCI);缩容过程中优先删除virtual-kubelet节点(弹性至CCI)的Pod,其次
副本数:副本数为1时插件不具备高可用能力,仅用于验证场景,商用场景请根据集群规格配置多个副本数。 CPU/内存配额:组件的资源配额主要受集群中总容器数量和伸缩策略数量影响。通常场景下,建议集群中每5000个容器配置CPU 500m、内存1000Mi,每1000条伸缩策略配置CPU 100m、内存500Mi。
登录云容器引擎(CCE)控制台,单击集群名称进入集群,选择左侧导航栏的“日志中心”。 未进行授权的用户需要先授权,已授权的用户直接跳转下一步。 在弹出框中单击“确认授权”。 图1 添加授权 页面单击“开启”,等待约30秒后,页面自动跳转。 图2 开启 采集容器标准输出:开启后,将创建名为def