检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
(SDK)等工具构建容器,并创建Kubernetes资源训练其模型。模型训练完成后,用户还可以使用KFServing创建和部署用于推理的服务器。再结合pipeline(流水线)功能可实现端到端机器学习系统的自动化敏捷构建,实现AI领域的DevOps。 前提条件 已在CCE创建一个
创建模板实例 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“应用模板”。 在“我的模板”页签中,单击目标模板下的“安装”。 参照表2设置安装工作负载参数。 表2 安装工作负载参数说明 参数 参数说明 实例名称 新建模板实例名称,命名必须唯一。 命名空间 指定部署的命名空间。
通过这种方式,您可以确保容器仅拥有执行其功能所需的权限,而不会因拥有过多权限而带来安全隐患。有关更多关于如何为容器设置Capabilities的信息,请参见为容器设置Capabilities。 Seccomp Seccomp是一种系统调用过滤机制,它能够限制进程能够使用的系统调用
文件存储(SFS) 文件存储概述 通过静态存储卷使用已有文件存储 通过动态存储卷使用文件存储 通过动态存储卷创建SFS子目录 设置文件存储挂载参数 将容器应用从SFS 1.0迁移到通用文件系统(SFS 3.0)或SFS Turbo 父主题: 存储
极速文件存储(SFS Turbo) 极速文件存储概述 通过静态存储卷使用已有极速文件存储 设置极速文件存储挂载参数 通过动态存储卷创建SFS Turbo子目录(推荐) 通过StorageClass动态创建SFS Turbo子目录 父主题: 存储
vice使用selector来匹配后端Pod,其他服务或者集群外部通过访问Service即可访问到后端Pod提供的服务。如需对外暴露可直接设置Service类型为LoadBalancer,弹性负载均衡ELB将作为流量入口。 灰度发布原理 以Deployment为例,用户通常会为每
的规则,详情请参见使用RBAC鉴权。 ClusterRole:ClusterRole是一个集群级别的资源,可设置集群的访问权限。 Role:Role用于在某个命名空间内设置访问权限。当创建Role时,必须指定该Role所属的命名空间。 图2 自定义权限 单击“确定”。 父主题: API&kubectl
问题现象 当出现集群不可用,您可以查看集群事件确认异常原因。 当集群事件中存在“KMS密钥状态异常”时,您需要确认该集群对应的使用的密钥状态是否被设置为“禁用”或“计划删除”。 解决方案 登录数据加密服务 DEW控制台。 在自定义密钥列表中,找到集群使用的KMS密钥。 “计划删除”状态的
其余工作 应用功能验证 由于集群迁移是对应用数据的全量迁移,可能存在应用内适配问题。例如本示例中,集群迁移后,Wordpress中发布的文章跳转链接仍是原域名,单击文章标题将会重定向至原集群中的应用实例,因此需要通过搜索将Wordpress中原有的旧域名并替换为新域名,并修改数据
场景二 pod的内存的limit设置较小,实际使用率超过limit,导致容器触发了OOMkill。 解决方法: 扩大工作负载内存的limit设置。 示例 本例将创建一个Pod尝试分配超过其限制的内存,如下这个Pod的配置文档,它申请50M的内存, 内存限制设置为100M。 memory-request-limit-2
requests: storage: 1Gi # 存储容量,单位为Gi,对OBS桶来说,此处仅为校验需要(不能为空和0),设置的大小不起作用,此处设定为固定值1Gi 表1 关键参数说明 参数 描述 volume.beta.kubernetes.io/storage-class
例如CCE服务在“华东-上海一”区域的Endpoint为“cce.cn-east-3.myhuaweicloud.com” uri:根据需要调用的接口设置,例如需要创建一个Deployment,则请求方法为POST,接口uri为/apis/apps/v1/namespaces/{namesp
选择自定义指标 示例中以cce_gpu_memory_utilization(GPU显存使用率)作为伸缩指标,其余HPA参数的设置请根据实际需求进行设置,详情请参见创建HPA策略。 返回“策略”页面,查看HPA策略已创建成功。 图5 HPA策略创建成功 父主题: GPU调度
ELB Ingress和Nginx Ingress对比 在CCE服务中,集群支持通过Nginx Ingress和ELB Ingress为应用提供7层网络访问。 Nginx Ingress:CCE基于社区的Nginx Ingress Controller进行了优化,并定期同步社区特性和Bug修复。Nginx
容器运行时(docker)的路径 /var/lib/docker 数据盘空间分配设置为“共享磁盘空间”: /mnt/paas/runtime 同时创建了/var/lib/docker -> /mnt/paas/runtime的软链接 数据盘空间分配设置为“指定磁盘空间”:与Kubernetes原始路径保持一致,即/var/lib/docker
重新调度,因此需要检查Pod对污点的容忍策略。 解决方案 通过查询Pod或者工作负载的yaml,查看容忍策略。一般情况下,工作负载的容忍度设置由以下字段组成: tolerations: - key: "key1" operator: "Equal" value: "value1"
手动扩容策略 当节点池进行手动扩缩容时,您可选择指定的规格进行伸缩。当选择的节点规格资源不足或配额不足时,会导致扩容失败。 设置优先级 关于如何设置节点池规格优先级详情请参见配置集群弹性伸缩策略。 父主题: 节点弹性伸缩
在EVS控制台扩容成功后,仅扩大了云硬盘的存储容量,还需要执行后续步骤扩容逻辑卷和文件系统。 登录CCE控制台,进入集群,在左侧选择“节点管理”,单击节点后的“同步云服务器”。 登录目标节点。 使用lsblk命令查看节点块设备信息。 这里存在两种情况,根据容器存储Rootfs而不同。 Overlayfs:没
ers,并且相关的清理操作被卡住或没有响应,则Pod将保持在Terminating状态。 Pod设置了terminationGracePeriodSeconds优雅退出时间:Pod设置优雅退出时间后,结束Pod时会进入Terminating状态,等待容器优雅退出后将会自动删除。 解决方法
登录CCE控制台,在左侧导航栏中选择“集群管理”,单击要创建节点的集群进入集群控制台。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签,单击右侧“创建节点”,并设置节点参数。 在“高级配置”中,填写安装前/后执行脚本。 例如,您可以通过安装后执行脚本创建iptables规则,限制每分钟最多只能有25个