检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Toolkit运行VASP任务,为什么概率性运行失败? Intel oneAPI Toolkit(Intel并行计算平台)运行的VASP(用于电子结构计算和量子力学-分子动力学模拟)任务对CPU硬件版本有深度依赖,在小规格Pod场景下概率性运行失败,建议切换oneAPI版本或使用4核以上Pod运行。
通过ExtensionProfile加到负载上的标签不能够被ScheduleProfile匹配,因此不会被ScheduleProfile管理调度功能。 当弹性到CCI的资源调度失败时,bursting节点会被锁定半小时,期间无法调度至CCI。用户可通过CCE集群控制台,使用kub
not DEPLOYED or FAILED 更新失败:当前应用状态不支持更新,安装成功/失败的应用支持更新 请联系技术支持 400 CCI.04.400104 Validate chart version failed 请求失败:模板版本不合法,版本格式要求:长度不大于64位且
伸缩负载 本节主要讲解工作负载弹性伸缩和手动伸缩的配置方式。请根据实际业务选择。 弹性伸缩:支持告警、定时、周期三种策略。配置完成后可基于资源变化、固定时间、固定周期自动触发实例的增减。 手动伸缩:配置完成后立即触发实例的增减。 对于挂载了云硬盘存储卷的Pod,实例缩容时不会同步
Secret Secret是一种加密存储的资源对象,您可以将认证信息、证书、私钥等保存在密钥中,从而解决了密码、token、密钥等敏感数据的配置问题,而不需要把这些敏感数据暴露到镜像或者Pod Spec中,只需在容器启动时以环境变量等方式加载到容器中。 Secret与ConfigM
定时任务(CronJob)”,在右侧页面单击“镜像创建”。 添加基本信息。 任务名称 请输入以小写字母或数字开头,小写字母、数字、中划线(-)、点(.)组成(其中两点不能相连,点不能与中划线相连),小写字母或数字结尾的1到52字符的字符串。任务名称不支持修改,如需修改名称,需要重新创建。 命名空间 选择命名空间,
ume的挂载操作。 对于long running的Pod(Deployment/StatefulSet),除了类似镜像拉取失败、存储挂载失败、容器网络分配失败、当前节点CPU/Mem不满足Pod的实际使用要求等异常场景外,Pod容器如果最终都会启动成功时,上述podWorker在几次周期后都会判定挂载成功。
云容器实例对单个用户的资源数量和容量限定了配额,您可以登录华为云控制台,在“资源 > 我的配额>服务配额”页面,查看各项资源的总配额及使用情况。 说明: 如果当前配额不能满足业务要求,可申请扩大配额。配额的详细信息请参见关于配额。 单个CCI实例的vCPU数量 0.25核-32核,或者自定义选择48核、64核。
配置管理 使用ConfigMap 使用Secret SSL证书
y Context)对内核参数进行配置,极大提升用户业务部署的灵活性。如果您对securityContext概念不够熟悉,更多信息可阅读Security Context。 在 Linux 中,最通用的内核参数修改方式是通过sysctl接口进行配置。在Kubernetes中,也是通
使用容器化的方式做此类人工智能训练与推理有如下优势: 容器化消除环境差异,不需要自己安装各种软件和配套版本,如python,tensorflow,cuda toolkit等软件。 GPU驱动免安装。 低成本,按秒计费。 serverless带来的免VM运维。 镜像制作 tenso
nfig配置文件 ... 使用ConfigMap管理Prometheus配置 为了能够方便地管理配置文件,我们这里将 prometheus.yml 文件用 ConfigMap 的形式进行管理。通过ConfigMap可以方便地做到配置解耦,使得不同环境有不同的配置。相比环境
公有镜像是否可以导出? 您无法导出或下载其他用户上传的镜像。 父主题: 镜像仓库类
群+CCI服务上。 支持修改镜像配置方式。 支持原地升级镜像。 镜像 存储 用户通过存储相关的配置为工作负载外挂存储卷,以完成业务中数据持久存储的诉求。 支持多种存储类型。 支持替换工作负载hostpath配置方式。 存储 网络 用户通过网络配置规划CCE集群和CCI集群之间的网络拓扑。
metadata:一些名称/标签/namespace等信息 spec:Pod实际的配置信息,包括使用什么镜像,volume等 如果去查询Kubernetes的资源,您会看到还有一个status字段,status描述kubernetes资源的实际状态,创建时不需要配置。这个示例是一个最小集,其他参数定义后面会逐步介绍。
ev/shm实现临时数据存储,此时CCI场景/dev/shm默认大小64M无法满足客户诉求,故提供修改/dev/shm size大小的能力。 本操作实践展示通过“memory类型EmptyDir”和“配置securityContext与mount命令”两种方式来修改/dev/shm容量。
使用限制 待挂载的极速文件存储必须是按需付费。更多信息,请参见极速文件存储计费。 使用极速文件存储期间,不能修改极速文件存储关联的VPC配置信息,否则CCI中容器无法访问极速文件存储。 请谨慎执行极速文件存储的删除操作,以避免造成CCI中容器不可用。 导入极速文件存储 云容器实例支持导入已有的极速文件存储。
那问题就来了,通常一个Pod启动是需要时间的,如果Pod还没准备好(可能需要时间来加载配置或数据,或者可能需要执行 一个预热程序之类),这时把请求转给Pod的话,Pod也无法处理,造成请求失败。 Kubernetes中解决这个问题的方法就是给Pod加一个业务就绪探针Readiness
计费样例 计费场景 某用户于2023/03/18 15:30:00购买了一台按需计费的云容器实例,规格配置Pod规格:CPU 2核,内存 4GB 用了一段时间后,用户发现云容器实例当前规格无法满足业务需要,于2023/03/20 9:00:00扩容Pod规格为CPU 4核,内存 8GB。
/health 时执行这个功能,然后返回对应结果。这里要注意不能做鉴权,不然 probe 就会一直失败导致陷入重启的死循环。 另外检查只能限制在应用内部,不能检查依赖外部的部分,例如当前端web server不能连接数据库时,这个就不能看成web server不健康。 liveness probe必须轻量