检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用容器化的方式做此类人工智能训练与推理有如下优势: 容器化消除环境差异,不需要自己安装各种软件和配套版本,如python,tensorflow,cuda toolkit等软件。 GPU驱动免安装。 低成本,按秒计费。 serverless带来的免VM运维。 镜像制作 tenso
日志出现重复/丢失的原因 日志出现重复 原因一:日志文件转储,且转储文件仍被匹配到。 详细说明:如果配置日志路径文件名中有通配符,如配置为/tmp/*.log,当/tmp/test.log文件转储为/tmp/test.001.log后,因仍被通配规则匹配到,会被视为新文件,则会被重新采集。
能比较敏感,请不要将大IO的文件操作放在rootfs,例如往容器系统盘(rootfs磁盘)高频打日志,使系统盘频繁读写,您可以将业务相关的配置文件,或者一些读写不频繁的文件放在rootfs磁盘中。大IO的文件操作需要根据业务场景选择随Pod生命周期创删的日志卷、FlexVolum
使用sample镜像创建工作负载无法运行 当您使用过容器镜像服务(SWR)但没有上传过镜像时,容器镜像服务会为您预置一个名为sample的镜像,该镜像无法运行,建议您直接使用开源镜像中心的镜像创建负载。 父主题: 容器工作负载类
静态EIPPool,即根据用户指定的多个未使用的EIP,静态纳管底层的EIP资源,同时在CCI命名空间下创建相应的EIP对象。如果EIPPool中的EIP已经被NAT或者ELB使用,则会纳管失败。 以下示例创建了一个名为eippool-demo2的静态EIPPool,并在此EIPPool中纳管10.246.173
时读取环境变量的值,从而做到灵活的配置,而不是每次都重新编写应用程序制作镜像。 另外,您还可以使用ConfigMap和Secret作为环境变量,详细信息请参见使用ConfigMap和Secret提高配置灵活性。 环境变量的使用方法如下所示,配置spec.containers.env字段即可。
进入容器执行命令 功能介绍 exec接口无法通过curl或者postman进行调试,推荐使用kubectl进行调试,请参见kubectl配置指南。 调用方法 请参见如何调用API。 URI POST /api/v1/namespaces/{namespace}/pods/{name}/exec
进入容器执行命令 功能介绍 exec接口无法通过curl或者postman进行调试,推荐使用kubectl进行调试,请参见kubectl配置指南。 调用方法 请参见如何调用API。 URI GET /api/v1/namespaces/{namespace}/pods/{name}/exec
储卷的容器实例(Pod)弹性到CCI。 安装插件 登录CCE控制台。 选择CCE集群,单击进入CCE集群总览页面。 在导航栏左侧单击“插件中心”,进入插件中心首页。 选择“CCE 突发弹性引擎 (对接 CCI)”插件,单击“安装”。 配置插件参数。 表1 插件参数说明 插件参数 说明
突发弹性引擎 (对接 CCI)”插件,单击“安装”。 配置插件参数。 表1 插件参数说明 插件参数 说明 选择版本 插件的版本。插件版本和CCE集群存在配套关系,更多信息可以参考CCE突发弹性引擎(对接CCI)插件版本记录。 规格配置 用于配置插件负载的实例数及资源配额。 选择“系统
使用Nvidia-smi工具 为了支持查看GPU使用情况的场景,需要在镜像中注入nvidia-smi工具,根据购买的专属节点GPU驱动版本选择不同的nvidia-smi二进制文件。 nvidia-smi获取方式。 该二进制文件可以在nvidia官网,根据CUDA Toolkit版
当前CCI支持使用如下几种云存储: 云硬盘(EVS) 文件存储(SFS) 极速文件存储(SFS Turbo) 对象存储(OBS) 其中云硬盘存储需要人工配置备份策略,详情请参见云硬盘备份管理。 父主题: 存储管理类
远程终端 远程终端(web-terminal)提供连接容器功能,帮助您快速调试容器。 约束与限制 web-terminal 默认是以sh shell登录容器,要求容器支持sh shell。 只有状态为“运行中”的容器可终端登录。 退出时,请在web-terminal中输入“exit”,否则会导致sh进程残留。
操作步骤 安装“云原生日志采集插件”和“CCE 突发弹性引擎 (对接 CCI)”插件。 登录CCE控制台。 选择CCE集群,单击进入CCE集群总览页面。 在导航栏左侧单击“插件中心”,进入插件中心首页。 选择“CCE 突发弹性引擎 (对接 CCI)”插件,单击“安装”。 在安装配置中需要勾选“网络互通”功能。
创建TFJob。 TFJob即Tensorflow任务,是基于Tensorflow开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现Tensorflow的单机或分布式训练。Tensorflow开源框架的信息详见:https://www.tensorflow
容器实例被驱逐 如果节点超负荷运行,无法承受的话,系统会自动清理一些任务。 建议根据实际使用量来申请资源。 父主题: 容器工作负载类
如何查看资源配额? 云容器实例对单个用户的资源数量和容量限定了配额,配额的详细信息请参见关于配额。 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 在页面右上角,选择“资源 > 我的配额”。 系统进入“服务配额”页面。 图1 我的配额 您可以在“服务配额”页面,查看各项资源的总配额及使用情况。
查看资源使用率 当您创建完工作负载后,您也许会非常关心每个Pod的资源利用率。 云容器实例提供了查看CPU/内存、GPU/显存的界面,您只需要在无状态负载、任务、定时任务中Pod列表的“监控”Tab下即可查看资源使用率,如图1所示。 您也可以在Pod管理中查看所有Pod的资源使用率。
定位思路 当工作负载状态异常时,建议先查看事件。 在CCI控制台中,单击左侧导航栏的“工作负载”,单击异常工作负载名称,进入详情页面,在Pod列表中,单击异常实例左边的,显示该实例的详情,单击事件页签。 图1 查看事件 父主题: 工作负载异常