检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用容器化的方式做此类人工智能训练与推理有如下优势: 容器化消除环境差异,不需要自己安装各种软件和配套版本,如python,tensorflow,cuda toolkit等软件。 GPU驱动免安装。 低成本,按秒计费。 serverless带来的免VM运维。 镜像制作 tenso
使用sample镜像创建工作负载无法运行 当您使用过容器镜像服务(SWR)但没有上传过镜像时,容器镜像服务会为您预置一个名为sample的镜像,该镜像无法运行,建议您直接使用开源镜像中心的镜像创建负载。 父主题: 容器工作负载类
明确指定:明确指定使用的镜像快照。该镜像缓存必须为创建完成可用(Available)状态。 更多内容,请参考镜像快照概述。 操作步骤 在创建负载的过程中,容器配置填写完成后,打开“启动镜像快照”开关,选择自动匹配镜像快照或指定镜像快照。 自动匹配镜像快照 自动匹配将从用户创建的所有可用镜像快照中选择最优的镜像。按以下顺序进行匹配:
考虑到用户实际场景,EIPPool对象当前只允许用户调整EIP的数量,即对EIPPool进行扩缩容。用户如果需要调整EIP其他参数,可新建EIPPool对象后在负载配置中替换即可。 EIPPool缩容时,如果EIP资源被占用,则不会删除对应的EIP,直到占用解除。 以动态创建的eippool-demo1为
日志出现重复/丢失的原因 日志出现重复 原因一:日志文件转储,且转储文件仍被匹配到。 详细说明:如果配置日志路径文件名中有通配符,如配置为/tmp/*.log,当/tmp/test.log文件转储为/tmp/test.001.log后,因仍被通配规则匹配到,会被视为新文件,则会被重新采集。
能比较敏感,请不要将大IO的文件操作放在rootfs,例如往容器系统盘(rootfs磁盘)高频打日志,使系统盘频繁读写,您可以将业务相关的配置文件,或者一些读写不频繁的文件放在rootfs磁盘中。大IO的文件操作需要根据业务场景选择随Pod生命周期创删的日志卷、FlexVolum
ployment能够很方便地支撑应用升级。 Deployment 可以设置不同的升级策略,有如下两种。 RollingUpdate:也就是滚动升级(逐步创建新Pod然后删除旧Pod),也是默认策略 Recreate:也就是先把当前Pod删掉再重新创建Pod Deployment的
过命名空间级别权限设置可以控制用户操作Namespace(如创建、删除Namespace等)。更多细粒度权限说明请参见CCI细粒度鉴权系统策略关联Actions。 CCI服务暂不支持Landingzone场景。 创建Namespace时,打开RBAC鉴权开关,则此Namespac
过命名空间级别权限设置可以控制用户操作Namespace(如创建、删除Namespace等)。更多细粒度权限说明请参见CCI细粒度鉴权系统策略关联Actions。 CCI服务暂不支持Landingzone场景。 创建Namespace时,打开RBAC鉴权开关,则此Namespac
时读取环境变量的值,从而做到灵活的配置,而不是每次都重新编写应用程序制作镜像。 另外,您还可以使用ConfigMap和Secret作为环境变量,详细信息请参见使用ConfigMap和Secret提高配置灵活性。 环境变量的使用方法如下所示,配置spec.containers.env字段即可。
进入容器执行命令 功能介绍 exec接口无法通过curl或者postman进行调试,推荐使用kubectl进行调试,请参见kubectl配置指南。 调用方法 请参见如何调用API。 URI POST /api/v1/namespaces/{namespace}/pods/{name}/exec
进入容器执行命令 功能介绍 exec接口无法通过curl或者postman进行调试,推荐使用kubectl进行调试,请参见kubectl配置指南。 调用方法 请参见如何调用API。 URI GET /api/v1/namespaces/{namespace}/pods/{name}/exec
静态EIPPool,即根据用户指定的多个未使用的EIP,静态纳管底层的EIP资源,同时在CCI命名空间下创建相应的EIP对象。如果EIPPool中的EIP已经被NAT或者ELB使用,则会纳管失败。 以下示例创建了一个名为eippool-demo2的静态EIPPool,并在此EIPPool中纳管10.246.173
使用Nvidia-smi工具 为了支持查看GPU使用情况的场景,需要在镜像中注入nvidia-smi工具,根据购买的专属节点GPU驱动版本选择不同的nvidia-smi二进制文件。 nvidia-smi获取方式。 该二进制文件可以在nvidia官网,根据CUDA Toolkit版
远程终端 远程终端(web-terminal)提供连接容器功能,帮助您快速调试容器。 约束与限制 web-terminal 默认是以sh shell登录容器,要求容器支持sh shell。 只有状态为“运行中”的容器可终端登录。 退出时,请在web-terminal中输入“exit”,否则会导致sh进程残留。
查看资源使用率 当您创建完工作负载后,您也许会非常关心每个Pod的资源利用率。 云容器实例提供了查看CPU/内存、GPU/显存的界面,您只需要在无状态负载、任务、定时任务中Pod列表的“监控”Tab下即可查看资源使用率,如图1所示。 您也可以在Pod管理中查看所有Pod的资源使用率。
定位思路 当工作负载状态异常时,建议先查看事件。 在CCI控制台中,单击左侧导航栏的“工作负载”,单击异常工作负载名称,进入详情页面,在Pod列表中,单击异常实例左边的,显示该实例的详情,单击事件页签。 图1 查看事件 父主题: 工作负载异常
表明服务端能被请求访问到,但是不能理解用户的请求。 501 Not Implemented 服务器不支持请求的功能,无法完成请求。 502 Bad Gateway 充当网关或代理的服务器,从远端服务器接收到了一个无效的请求。 503 ServiceUnavailable 被请求的服务无效。 建议直接修改该请求,不要重试该请求。
创建PyTorchJob。 PyTorchJob即PyTorch任务,是基于PyTorch开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现PyTorch的训练。 URI POST /apis/kubeflow.org/v1/namespaces/{n