检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
"system-node-critical" and "system-cluster-critical" are two special keywords which indicate the highest priorities with the former being the highest
"system-node-critical" and "system-cluster-critical" are two special keywords which indicate the highest priorities with the former being the highest
"system-node-critical" and "system-cluster-critical" are two special keywords which indicate the highest priorities with the former being the highest
"system-node-critical" and "system-cluster-critical" are two special keywords which indicate the highest priorities with the former being the highest
"system-node-critical" and "system-cluster-critical" are two special keywords which indicate the highest priorities with the former being the highest
"system-node-critical" and "system-cluster-critical" are two special keywords which indicate the highest priorities with the former being the highest
"system-node-critical" and "system-cluster-critical" are two special keywords which indicate the highest priorities with the former being the highest
定位思路 当工作负载状态异常时,建议先查看事件。 在CCI控制台中,单击左侧导航栏的“工作负载”,单击异常工作负载名称,进入详情页面,在Pod列表中,单击异常实例左边的,显示该实例的详情,单击事件页签。 图1 查看事件 父主题: 工作负载异常
指定了10000次迭代,完成模型训练大概耗时3分钟,如果不指定,默认是1000000次迭代,耗时会比较长。max_steps数值越大,训练时间越久,结果越精确。 该命令是训练图片分类模型,然后单击“下一步”。 图4 设置容器启动命令 配置负载访问信息。 本例中选择“不启用”,单击“下一步”。
"system-node-critical" and "system-cluster-critical" are two special keywords which indicate the highest priorities with the former being the highest
"system-node-critical" and "system-cluster-critical" are two special keywords which indicate the highest priorities with the former being the highest
CoreDNS安装成功后会成为DNS服务器,当创建Service后,CoreDNS会将Service的名称与IP记录起来,这样Pod就可以通过向CoreDNS查询Service的名称获得Service的IP地址。 访问时通过nginx.<namespace>.svc.cluster.local访问,
在页面单击失败的工作负载,进入负载详情界面,查看Pod列表,获取Pod名字。 查看失败的容器的名称。 kubectl describe pod $name -n $namespace | grep "Error syncing pod failed to" 图2 查看失败的容器的名称 查看退出容器的错误日志。
Pod状态 单击“事件”页,查看异常事件,如下图: 图2 事件类型异常 在Pod列表,单击失败实例后的“查看日志”,跳转到应用运维管理AOM界面。 图3 Pod列表 在应用运维管理AOM界面,单击“日志 > 日志搜索”选择组件,查看错误信息。 图4 查看日志 问题原因: 上传的AK/SK失效。
使用Nvidia-smi工具 为了支持查看GPU使用情况的场景,需要在镜像中注入nvidia-smi工具,根据购买的专属节点GPU驱动版本选择不同的nvidia-smi二进制文件。 nvidia-smi获取方式。 该二进制文件可以在nvidia官网,根据CUDA Toolkit版
服务资源的权限,单击“同意授权”。 授信成功后,将会创建一个委托,委托名称为“cci_admin_trust”,您可以在IAM服务控制台中查看。 (可选)上传镜像 云平台提供了容器镜像服务,您可以上传容器镜像到容器镜像仓库中,创建负载时使用该镜像,具体使用方法请参见客户端上传镜像。
容器工作负载类 为什么业务运行性能不达预期? 如何设置实例(Pod)数? 如何查看资源配额? 如何设置应用的探针? 弹性伸缩策略如何配置? 使用sample镜像创建工作负载无法运行 调用接口删除Deployment后怎么还能查看到Pod? 为什么exec进入容器后执行GPU相关的操作报错? 使
kubectl create -f ns.yaml namespace/namespace-test created 执行kubectl get ns查询namespace是否创建成功,ns为namespace的缩写。 # kubectl get ns NAME STATUS
监控安全风险 通过AOM查看Pod监控数据 为使用户更好的掌握工作负载的运行状态,CCI配合AOM对其进行全方位的监控。 通过AOM界面您可监控CCI的基础资源和运行在CCI上的应用,同时在AOM界面还可查看相关的日志和告警。 更多内容,请参见监控管理。 Pod资源监控指标 CC
kubectl create -f ns.yaml namespace/namespace-test created 执行kubectl get ns查询namespace是否创建成功,ns为namespace的缩写。 # kubectl get ns NAME STATUS