检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
18以下版本的插件,因此插件回退版本后会导致这些Pod中的Service访问异常。插件在低于1.5.18版本时弹性到CCI的Pod不受影响。 解决方案: 方案一:将插件再升级到1.5.18及以上版本。 方案二:将Service访问异常的Pod删除重建,重建后弹性到CCI的Pod Service访问将恢复正常。
变量值为MySQL数据库的密码(需自行设置)。 单击“下一步”,配置负载信息,负载访问选择内网访问(可以被云容器实例中其他负载通过“服务名称:端口”方法),将“服务名称”定义为mysql,并指定负载访问端口3306映射到容器的3306端口(mysql镜像的默认访问端口)。 这样在
为了支持查看GPU使用情况的场景,需要在镜像中注入nvidia-smi工具,根据购买的专属节点GPU驱动版本选择不同的nvidia-smi二进制文件。 nvidia-smi获取方式。 该二进制文件可以在nvidia官网,根据CUDA Toolkit版本选择下载对应版本的nvidia驱动包。
监控安全风险 通过AOM查看Pod监控数据 为使用户更好的掌握工作负载的运行状态,CCI配合AOM对其进行全方位的监控。 通过AOM界面您可监控CCI的基础资源和运行在CCI上的应用,同时在AOM界面还可查看相关的日志和告警。 更多内容,请参见监控管理。 Pod资源监控指标 CC
查询指定namespace下的所有PyTorchJob 功能介绍 查询Namespace下所有PyTorchJob的详细信息。 URI GET /apis/kubeflow.org/v1/namespaces/{namespace}/pytorchjobs 表1 Path参数 参数
查询指定namespace下的所有MXJob 功能介绍 查询Namespace下所有MXJob的详细信息。 URI GET /apis/kubeflow.org/v1/namespaces/{namespace}/mxjobs 表1 Path参数 参数 是否必选 描述 namespace
查询指定namespace下的所有TFJob 功能介绍 查询Namespace下所有TFJob的详细信息。 URI GET /apis/kubeflow.org/v1/namespaces/{namespace}/tfjobs 表1 Path参数 参数 是否必选 描述 namespace
能否使用kubectl管理容器实例? 支持,具体请参见https://support.huaweicloud.com/devg-cci/cci_kubectl.html。 父主题: 基本概念类
选择“明细账单”,在筛选条件中选择“资源名称”,并输入3中复制的资源名称,单击图标即可搜索该资源的账单。 图2 查询资源账单 可以看到CCI实例收取了CPU、内存两类资源的费用,这取决于CCI的计费项和计费模式,具体请参见计费概述。 关于查询账单的详细参数介绍请参见流水与明细账单。 核对资源用量是否与实际相符
调用说明 云容器实例提供了REST(Representational State Transfer)风格API,支持您通过HTTPS请求调用,调用方法请参见如何调用API。 父主题: 使用前必读
Job是用来控制批处理型任务的资源对象。批处理业务与长期伺服业务(Deployment)的主要区别是批处理业务的运行有头有尾,而长期伺服业务在用户不停止的情况下永远运行。Job管理的Pod根据用户的设置把任务成功完成就自动退出了。 Job的这种用完即停止的特性特别适合一次性任务,比
kubernetes除了必要的支撑组件以外,其他的组件都是以插件的形式运行,如Kubernetes DNS,Kubernetes Dashboard等等。 插件是对现有功能的扩展,当前云容器实例提供了coredns插件供您使用,您可以在云容器实例界面上直接安装插件,从而方便的使用插件提供的功能。 coredns插件介绍
在页面单击失败的工作负载,进入负载详情界面,查看Pod列表,获取Pod名字。 查看失败的容器的名称。 kubectl describe pod $name -n $namespace | grep "Error syncing pod failed to" 图2 查看失败的容器的名称 查看退出容器的错误日志。
用户Token。 通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。 Content-Type 是 String 目前支持三种类型的PATCH请求方法的操作,参考《使用JSON合并patch更新Deployment》。 Json Patch, Content-Type:
资源对象添加labels标签。添加的标签需满足如下要求: service的labels中设置的标签必须和负载的selector中matchLabels设置的label一致。 例如,负载中matchLabels标s签设置如下: "spec": { "replicas":
通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。 Content-Type 是 String 消息体的类型(格式),默认取值为“application/json” 缺省值:application/json 表4 请求Body参数 参数 是否必选 参数类型
单击“事件”页,查看异常事件,如下图: 图2 事件类型异常 在Pod列表,单击失败实例后的“查看日志”,跳转到应用运维管理AOM界面。 图3 Pod列表 在应用运维管理AOM界面,单击“日志 > 日志搜索”选择组件,查看错误信息。 图4 查看日志 问题原因: 上传的AK/SK失效。
创建MXJob。 MXJob即MXNet任务,是基于MXNet开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现MXNet的训练。MXNet开源框架的信息详见:https://mxnet.incubator.apache.org/。 URI
TFJob即Tensorflow任务,是基于Tensorflow开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现Tensorflow的单机或分布式训练。Tensorflow开源框架的信息详见:https://www.tensorflow.org 。 URI
通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。 Content-Type 是 String 消息体的类型(格式),默认取值为“application/json” 缺省值:application/json 表4 请求Body参数 参数 是否必选 参数类型