搜索_华为云

在CCE集群中部署使用ClickHouse - 云容器引擎 CCE

"clickhousekeeperinstallations.clickhouse-keeper.altinity.com" deleted ... 父主题：批量计算

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算
资源准备 - 云容器引擎 CCE
资源准备 - 云容器引擎 CCE

资源准备在集群中添加GPU节点登录CCE控制台，单击已创建的集群，进入集群控制台。安装GPU插件。在左侧导航栏中选择“插件管理”，在右侧找到gpu-beta（或gpu-device-plugin），单击“安装”。在安装插件页面，设置插件关键参数。 Nvidia驱动：填写

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Caffe
Kubeflow部署 - 云容器引擎 CCE
Kubeflow部署 - 云容器引擎 CCE

Kubeflow部署 Kubeflow的诞生背景基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程，它需要处理很多个环节。如图1所示，除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
Tensorflow训练 - 云容器引擎 CCE
Tensorflow训练 - 云容器引擎 CCE

Tensorflow训练 Kubeflow部署成功后，使用ps-worker的模式来进行Tensorflow训练就变得非常容易。本节介绍一个Kubeflow官方的Tensorflow训练范例，您可参考TensorFlow Training (TFJob)获取更详细的信息。创建MNIST示例

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
集群可用但节点状态为“不可用”如何解决？ - 云容器引擎 CCE

当集群状态为“可用”，而集群中部分节点状态为“不可用”时，请参照本文提供的排查思路解决。节点不可用检测机制说明 Kubernetes 节点发送的心跳确定每个节点的可用性，并在检测到故障时采取行动。检测的机制和间隔时间详细说明请参见心跳。排查思路以下排查思路根据原因的出现概率进行排序，建

 帮助中心 > 云容器引擎 CCE > 常见问题 > 节点 > 节点运行
Caffe分类范例 - 云容器引擎 CCE
Caffe分类范例 - 云容器引擎 CCE

Caffe分类范例本实践采用caffe官方的分类例子，地址为https://github.com/BVLC/caffe/blob/master/examples/00-classification.ipynb。使用CPU 创建一个普通job，镜像输入第三方镜像bvlc/caffe:cpu，设置对应的容器规格。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Caffe
CCE节点NTP时间不同步如何解决？ - 云容器引擎 CCE

节点上的ntpd在长时间无法连接ntpserver等特殊场景下，可能导致偏移量过大，无法自动恢复。问题检测 CCE节点故障检测插件（npd）中已包含节点时间同步检查项，您可以在集群中安装该插件进行检测。详情请参见CCE节点故障检测。问题根因 EulerOS和CentOS类型的节点存在由NTP引起的已知问题，其他类型的节点不涉及该问题。

帮助中心 > 云容器引擎 CCE > 常见问题 > 节点 > 节点运行
预置条件 - 云容器引擎 CCE
预置条件 - 云容器引擎 CCE

预置条件本实践提供在CCE上运行caffe的基础分类例子https://github.com/BVLC/caffe/blob/master/examples/00-classification.ipynb的过程。 OBS存储数据预置创建OBS桶，并确认以下文件夹已创建，文件已上传至指定位置（需要使用OBS

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Caffe
如何批量修改集群node节点安全组？ - 云容器引擎 CCE

如何批量修改集群node节点安全组？约束与限制一个安全组关联的实例数量建议不超过1000个，否则可能引起安全组性能下降。更多关于安全组的限制请参考安全组限制。操作步骤登录VPC控制台，并在左上角选择区域和项目。在左侧导航树选择“访问控制 > 安全组”。在安全组界面，单击操作列的“管理实例”。

帮助中心 > 云容器引擎 CCE > 常见问题 > 网络管理 > 安全加固
使用Spark on CCE - 云容器引擎 CCE

使用Spark on CCE 使用Spark的Kubernetes调度程序spark-submit，可以将Spark应用程序提交到Kubernetes集群中运行，详情请参见在Kubernetes上运行Spark。使用spark-submit提交Spark应用程序的工作原理如下：

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Spark
节点池批量扩缩容节点时，Kubernetes Event事件存在部分缺失 - 云容器引擎 CCE

节点池批量扩缩容节点时，Kubernetes Event事件存在部分缺失问题现象节点池批量扩缩容节点时，Kubernetes Event事件存在部分缺失。例如，集群中批量缩容10个节点，CCE打印了10次“删除节点”事件，但是Kubernetes仅打印了4次“缩容空闲节点启动”的Event事件。

帮助中心 > 云容器引擎 CCE > 常见问题 > 节点池
NPD插件版本过低导致进程资源残留问题 - 云容器引擎 CCE

登录到CCE集群的ECS节点，查询存在大量npd进程。解决方案升级CCE节点故障检测（简称NPD）插件至最新版本。登录CCE控制台，进入集群，在左侧导航栏中选择“插件中心”，单击CCE节点故障检测下的“升级”。如果CCE节点故障检测插件版本已经为1.13.6及以上版本，则不需要进行升级操作。

帮助中心 > 云容器引擎 CCE > 常见问题 > 模板插件
节点异常问题排查 - 云容器引擎 CCE

检查连接跟踪表是否满 FrequentKubeletRestart 检测kubelet频繁重启 FrequentDockerRestart 检测docker频繁重启 FrequentContainerdRestart 检测containerd频繁重启 CRIProblem 检查容器CRI组件状态

 帮助中心 > 云容器引擎 CCE > 常见问题 > 节点
everest插件版本限制检查异常处理 - 云容器引擎 CCE

表1 受限的everest插件版本插件名称涉及版本 everest v1.0.2-v1.0.7 v1.1.1-v1.1.5 解决方案检测到当前everest版本存在兼容性限制，无法随集群升级，请联系技术支持人员。父主题：升级前检查异常问题排查

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
节点Kubelet检查异常处理 - 云容器引擎 CCE

节点状态为“不可用”修复节点后，重试检查任务。问题场景二：cce-pause版本异常检测到当前kubelet依赖的pause容器镜像版本非cce-pause:3.1，继续升级将会导致批量Pod重启，当前暂不支持升级，请联系技术支持人员。父主题：升级前检查异常问题排查

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
cce-hpa-controller插件限制检查异常处理 - 云容器引擎 CCE

cce-hpa-controller插件限制检查异常处理检查项内容检查cce-controller-hpa插件的目标版本是否存在兼容性限制。解决方案检测到目标cce-controller-hpa插件版本存在兼容性限制，需要集群安装能提供metrics api的插件，例如metrics-server；

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
健康检查探针（Liveness、Readiness）偶现检查失败? - 云容器引擎 CCE

健康检查探针（Liveness、Readiness）偶现检查失败? 健康检查探针偶现检测失败，是由于容器内的业务故障所导致，您需要优先定位自身业务问题。常见情况有：业务处理时间长，导致返回超时。 tomcat建链和等待耗费时间太长（连接数、线程数等），导致返回超时。容器所在

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 容器设置
节点上CCE Agent版本检查异常处理 - 云容器引擎 CCE

节点上CCE Agent版本检查异常处理检查项内容检测当前节点的CCE包管理组件cce-agent是否为最新版本。解决方案问题场景一：错误信息为“you cce-agent no update, please restart it”。该问题是由于cce-agent没有

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
高性能调度 - 云容器引擎 CCE
高性能调度 - 云容器引擎 CCE

Volcano是基于Kubernetes的批处理系统。Volcano提供了一个针对BigData和AI场景下，通用、可扩展、高性能、稳定的原生批量计算平台，方便AI、大数据、基因、渲染等诸多行业通用计算框架接入，提供高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等能力。应用场景1：多类型作业混合部署

 帮助中心 > 云容器引擎 CCE > 产品介绍 > 应用场景
为什么容器无法连接互联网？ - 云容器引擎 CCE

为什么容器无法连接互联网？当容器无法连接互联网时，首先需要排查容器所在节点能否连接互联网。其次，需要查看容器的网络配置是否正确，例如DNS配置是否可以正常解析域名。排查项一：节点能否连接互联网登录ECS控制台。查看节点对应的弹性云服务器是否已绑定弹性IP或者配置NAT网关。

帮助中心 > 云容器引擎 CCE > 常见问题 > 网络管理 > 网络异常问题排查

总条数： 217

上一页
1
2
3
4
5
...
11
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在CCE集群中部署使用ClickHouse - 云容器引擎 CCE

资源准备 - 云容器引擎 CCE

Kubeflow部署 - 云容器引擎 CCE

Tensorflow训练 - 云容器引擎 CCE

集群可用但节点状态为“不可用”如何解决？ - 云容器引擎 CCE

Caffe分类范例 - 云容器引擎 CCE

CCE节点NTP时间不同步如何解决？ - 云容器引擎 CCE

预置条件 - 云容器引擎 CCE

如何批量修改集群node节点安全组？ - 云容器引擎 CCE

使用Spark on CCE - 云容器引擎 CCE

节点池批量扩缩容节点时，Kubernetes Event事件存在部分缺失 - 云容器引擎 CCE

NPD插件版本过低导致进程资源残留问题 - 云容器引擎 CCE

节点异常问题排查 - 云容器引擎 CCE

everest插件版本限制检查异常处理 - 云容器引擎 CCE

节点Kubelet检查异常处理 - 云容器引擎 CCE

cce-hpa-controller插件限制检查异常处理 - 云容器引擎 CCE

健康检查探针（Liveness、Readiness）偶现检查失败? - 云容器引擎 CCE

节点上CCE Agent版本检查异常处理 - 云容器引擎 CCE

高性能调度 - 云容器引擎 CCE

为什么容器无法连接互联网？ - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线