检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
rchjobs 表1 Path参数 参数 是否必选 描述 namespace Yes object name and auth scope, such as for teams and projects 表2 Query参数 参数 是否必选 描述 pretty No If 'true’
0的pod,与从CCI 2.0前端或API创建的pod,如非必要,命名空间和pod名请勿同时重复,这将导致CCI 2.0侧的pod监控数据异常。从CCE侧查看pod的监控不受影响。 操作步骤 登录CCE控制台。 选择CCE集群,单击进入CCE集群总览页面。 在导航栏左侧单击“监控中心”,进入监控中心首页。
key2: value2 定义的Secret文件secret.yaml内容如下。其中Value需要进行Base64编码,Base64编码方法请参见如何进行Base64编码。 apiVersion: v1 kind: Secret metadata: name: mysecret
Path参数 参数 是否必选 描述 name Yes name of the PyTorchJob namespace Yes object name and auth scope, such as for teams and projects 表2 Query参数 参数 是否必选 描述 pretty
/mxjobs 表1 Path参数 参数 是否必选 描述 namespace Yes object name and auth scope, such as for teams and projects 表2 Query参数 参数 是否必选 描述 pretty No If 'true’
/tfjobs 表1 Path参数 参数 是否必选 描述 namespace Yes object name and auth scope, such as for teams and projects 表2 Query参数 参数 是否必选 描述 pretty No If 'true’
oneAPI Toolkit(Intel并行计算平台)运行的VASP(用于电子结构计算和量子力学-分子动力学模拟)任务对CPU硬件版本有深度依赖,在小规格Pod场景下概率性运行失败,建议切换oneAPI版本或使用4核以上Pod运行。 父主题: 容器工作负载类
Path参数 参数 是否必选 描述 name Yes name of the PyTorchJob namespace Yes object name and auth scope, such as for teams and projects 表2 Query参数 参数 是否必选 描述 pretty
EIPPool为namespace级别资源,不可跨namespace使用。 工作负载滚动升级时,默认策略是逐步创建新Pod然后删除旧Pod(请参见升级策略),则可能会由于EIPPool中EIP数量不足而升级失败。建议:EIPPool池的大小略大于使用该EIPPool的所有的Deploym
负载创建 概述 使用Docker run运行容器 使用控制台创建负载 调用API创建负载 Dockerfile参数在云容器实例中如何使用
Pod业务容器的启动时间可能早于EIP分配结果返回成功时间,在Pod启动过程中EIP可能会绑定失败。 通过在init container中可检查EIP是否已经分配成功。容器网络控制器会在Pod IP分配后,为Pod绑定EIP并返回分配结果至Pod的Annotation(yangtse.io/
存储管理类 CCI支持的云存储有哪些,哪种存储需要设置备份? 如何使用云存储? 如果不挂载云存储的话,容器运行产生的数据存储在哪里? job的pod已经执行完成的情况下,为什么依然有实例在挂卷等事件,并且事件信息是失败的? 使用OBS存储挂载失败
Path参数 参数 是否必选 描述 name Yes name of the MXJob namespace Yes object name and auth scope, such as for teams and projects 表2 Query参数 参数 是否必选 描述 pretty
Path参数 参数 是否必选 描述 name Yes name of the TFJob namespace Yes object name and auth scope, such as for teams and projects 表2 Query参数 参数 是否必选 描述 pretty
Pod状态 单击“事件”页,查看异常事件,如下图: 图2 事件类型异常 在Pod列表,单击失败实例后的“查看日志”,跳转到应用运维管理AOM界面。 图3 Pod列表 在应用运维管理AOM界面,单击“日志 > 日志搜索”选择组件,查看错误信息。 图4 查看日志 问题原因: 上传的AK/SK失效。
Path参数 参数 是否必选 描述 name Yes name of the TFJob namespace Yes object name and auth scope, such as for teams and projects 表2 Query参数 参数 是否必选 描述 pretty
服务不可用;如果您不需要通过Service访问,而是直接访问Pod,则可以使用此网段。 具体如何创建一个Network对象,可以参考Namespace和Network 调用方法 请参见如何调用API。 URI POST /apis/networking.cci.io/v1beta
Path参数 参数 是否必选 描述 name Yes name of the MXJob namespace Yes object name and auth scope, such as for teams and projects 表2 Query参数 参数 是否必选 描述 pretty
rchjobs 表1 Path参数 参数 是否必选 描述 namespace Yes object name and auth scope, such as for teams and projects 表2 Query参数 参数 是否必选 描述 fieldSelector No
负载管理 CCI应用进行优雅滚动升级 在容器中通过环境变量获取Pod基础信息 内核参数配置 修改/dev/shm容量大小 使用Prometheus监控CCI实例