检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
--max_steps表示训练迭代的次数,这里指定了10000次迭代,完成模型训练大概耗时3分钟,如果不指定,默认是1000000次迭代,耗时会比较长。max_steps数值越大,训练时间越久,结果越精确。 该命令是训练图片分类模型,然后单击“下一步”。
问题现象: exec进入容器后执行GPU相关的操作(例如nvidia-smi、使用tensorflow运行GPU训练任务等)报错“cannot open shared object file: No such file or directory”。
PyTorchJob即PyTorch任务,是基于PyTorch开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现PyTorch的训练。
GPU负载 使用Tensorflow训练神经网络 使用Nvidia-smi工具
TFJob即Tensorflow任务,是基于Tensorflow开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现Tensorflow的单机或分布式训练。
MXJob即MXNet任务,是基于MXNet开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现MXNet的训练。MXNet开源框架的信息详见:https://mxnet.incubator.apache.org/。
应用场景 大数据、AI计算 当前主流的大数据、AI训练和推理等应用(如Tensorflow、Caffe)均采用容器化方式运行,并需要大量GPU、高性能网络和存储等硬件加速能力,并且都是任务型计算,需要快速申请大量资源,计算任务完成后快速释放。
Intel oneAPI Toolkit(Intel并行计算平台)运行的VASP(用于电子结构计算和量子力学-分子动力学模拟)任务对CPU硬件版本有深度依赖,在小规格Pod场景下概率性运行失败,建议切换oneAPI版本或使用4核以上Pod运行。 父主题: 容器工作负载类
使用AK/SK认证时,您可以基于签名算法使用AK/SK对请求进行签名,也可以使用专门的签名SDK对请求进行签名。详细的签名方法和SDK使用方法请参见API签名指南。 签名SDK只提供签名功能,与服务提供的SDK不同,使用时请注意。
通过阅读本章用户可以快速搭建日志平台,在CCE的日志观测CCI侧日志。 弹性到CCI的负载会默认开启容器标准输出采集并上报到应用运维管理,AOM每月赠送每个租户500M的免费日志存储空间,超过500M时将根据实际使用量进行收费,计费规则请参见产品价格详情。
内核参数配置 CCI服务底座使用安全容器构建了业内领先的Serverless容器平台,同物理机系统内核隔离且互不影响。对于资深业务部署场景,内核参数调优是比较通用的方式。
CCE容器实例弹性伸缩到CCI服务 CCE突发弹性引擎(对接 CCI)作为一种虚拟的kubelet用来连接Kubernetes集群和其他平台的API。Bursting的主要场景是将Kubernetes API扩展到无服务器的容器平台(如CCI)。
WordPress是使用PHP语言开发的博客平台。用户可以在支持PHP和MySQL数据库的服务上架设属于自己的网站,也可以把WordPress当作一个内容管理系统来使用。更多WordPress信息可以通过官方网站了解:https://wordpress.org/。
当工作负载创建完成后,您可以给负载绑定ELB实例,通过公网访问Prometheus平台,查看监控数据。
快速使用 简介 CCE突发弹性引擎(对接 CCI)作为一种虚拟的kubelet用来连接Kubernetes集群和其他平台的API。Bursting的主要场景是将Kubernetes API扩展到无服务器的容器平台(如CCI)。
本节的资源规整算法仅适用于云原生bursting,CCI 2.0的console和API有独立的Pod规格规整算法。 pod资源规格算法 弹性CCI的pod规格,根据container资源的Requests和Limits计算,调整至CCI允许范围。
完全开放的原生平台 紧跟Kubernetes和Docker社区,迅速同步最新版本 原生支持Kubernetes API 高安全 云容器实例同时具备容器级别的启动速度和虚拟机级别的安全隔离能力,提供更好的容器体验。
(可选)上传镜像 云平台提供了容器镜像服务,您可以上传容器镜像到容器镜像仓库中,创建负载时使用该镜像,具体使用方法请参见客户端上传镜像。 CCI当前暂不支持对接第三方镜像仓库。
最佳实践 Dockerfile参数在云容器实例中如何使用 使用Tensorflow训练神经网络 使用多种方法创建工作负载 05 进阶 云容器实例提供了定制的kubectl工具,支持使用Kubectl命令行创建负载等资源。
您可以使用公有云平台提供的NAT网关服务。该服务能够为虚拟私有云内的容器提供网络地址转换(Network Address Translation)服务,使虚拟私有云内的容器可以共享使用弹性公网IP访问Internet。