检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
定位思路 当工作负载状态异常时,建议先查看事件。 在CCI控制台中,单击左侧导航栏的“工作负载”,单击异常工作负载名称,进入详情页面,在Pod列表中,单击异常实例左边的,显示该实例的详情,单击事件页签。 图1 查看事件 父主题: 工作负载异常
事件二:重新启动容器失败 工作负载详情中,如果事件中提示“重新启动容器失败”,请按照如下方式来排查原因。 排查项一:查看端口是否冲突 按照使用kubectl配置好kubectl。 在页面上单击失败的工作负载,进入负载详情界面,查看Pod列表,获取Pod名字。 查看失败的容器的名称。
为什么业务运行性能不达预期? 由于CCI服务底层资源是多租户共享的,为了保障用户业务稳定,CCI服务底层对于磁盘IO等是有流控限制的。体现在容器内,主要影响是负载对根目录rootfs的读写、负载标准日志输出数据量都会受到一定限制。如果您的业务运行性能不达预期,可以从以下几个可能的原因进行排查:
使用Docker run运行容器 Docker是一个开源的应用容器引擎。容器引擎是Kubernetes(k8s)最重要的组件之一,负责管理镜像和容器的生命周期。使用Docker,无需配置运行环境,镜像中会包含一整套环境,同时进程间是隔离的,不会相互影响。 Docker容器都是由d
什么是安全容器? 安全容器这个概念主要与普通容器进行比较的。 和普通容器相比,它最主要的区别是每个容器(准确地说是pod)都运行在一个单独的微型虚拟机中,拥有独立的操作系统内核,以及虚拟化层的安全隔离。因为云容器实例采用的是共享多租集群,因此容器的安全隔离比用户独立拥有私有Kub
账户有余额,仍提示欠费 问题现象: 账户重置后有余额,在CCI中新建命名空间仍然提示欠费,无法操作。 解决方法: 退出账号,重新登录或清理浏览器缓存。 父主题: 账户类
为什么exec进入容器后执行GPU相关的操作报错? 问题现象: exec进入容器后执行GPU相关的操作(例如nvidia-smi、使用tensorflow运行GPU训练任务等)报错“cannot open shared object file: No such file or directory”。
什么是环境变量? 环境变量是指容器运行环境中设定的一个变量。环境变量可以在工作负载部署后修改,为工作负载提供了极大的灵活性。 在CCI中设置环境变量与Dockerfile中的“ENV”效果相同。 父主题: 基本概念类
登录云容器实例管理控制台,左侧导航栏中选择“网络管理 > 服务(Service)”,在右侧页面单击“添加服务”。 在“添加服务”页面,访问类型选择“集群内访问ClusterIP”。 设置集群内访问参数。 服务名称:服务名称即Service的名称,Service是用于管理Pod访问的对象。
请参见如何调用API。 URI GET /apis/batch.volcano.sh/v1alpha1/namespaces/{namespace}/jobs/{name} 表1 路径参数 参数 是否必选 参数类型 描述 name 是 String name of the Job namespace
日志出现重复/丢失的原因 日志出现重复 原因一:日志文件转储,且转储文件仍被匹配到。 详细说明:如果配置日志路径文件名中有通配符,如配置为/tmp/*.log,当/tmp/test.log文件转储为/tmp/test.001.log后,因仍被通配规则匹配到,会被视为新文件,则会被重新采集。
删除MXJob。 URI DELETE /apis/kubeflow.org/v1/namespaces/{namespace}/mxjobs/{name} 表1 Path参数 参数 是否必选 描述 name Yes name of the MXJob namespace Yes
删除命名空间下的所有PyTorchJob。 URI DELETE /apis/kubeflow.org/v1/namespaces/{namespace}/pytorchjobs 表1 Path参数 参数 是否必选 描述 namespace Yes object name and auth scope, such as
删除PyTorchJob。 URI DELETE /apis/kubeflow.org/v1/namespaces/{namespace}/pytorchjobs/{name} 表1 Path参数 参数 是否必选 描述 name Yes name of the PyTorchJob namespace
删除TFJob。 URI DELETE /apis/kubeflow.org/v1/namespaces/{namespace}/tfjobs/{name} 表1 Path参数 参数 是否必选 描述 name Yes name of the TFJob namespace Yes
如何设置实例(Pod)数? 创建工作负载时 创建负载的时候直接设置实例(Pod)数量。 图1 设置工作负载实例数量 工作负载创建后 在负载详情页“伸缩”部分,选择手动伸缩,单击,调整实例数量。 图2 手动伸缩 图3 调整实例数 父主题: 容器工作负载类
查询Namespace下所有MXJob的详细信息。 URI GET /apis/kubeflow.org/v1/namespaces/{namespace}/mxjobs 表1 Path参数 参数 是否必选 描述 namespace Yes object name and auth scope, such as
查询Namespace下所有TFJob的详细信息。 URI GET /apis/kubeflow.org/v1/namespaces/{namespace}/tfjobs 表1 Path参数 参数 是否必选 描述 namespace Yes object name and auth scope, such as
云容器实例提供了REST(Representational State Transfer)风格API,支持您通过HTTPS请求调用,调用方法请参见如何调用API。 父主题: 使用前必读
删除命名空间下的所有TFJob。 URI DELETE /apis/kubeflow.org/v1/namespaces/{namespace}/tfjobs 表1 Path参数 参数 是否必选 描述 namespace Yes object name and auth scope, such as