-
Container配置 - 云容器引擎 CCE
启动探针 参数名 取值范围 默认值 是否允许修改 作用范围 StartupProbe 无 无 允许 - 指示容器中的应用是否已经启动。如果提供了启动探针,则所有其他探针都会被 禁用,直到此探针成功为止。如果启动探测失败,kubelet 将终止容器, 而容器依其重启策略进行重启。 如果容器没有提供启动探测,则默认状态为
-
选择GPU节点驱动版本 - 云容器引擎 CCE
Toolkit和驱动的版本兼容性列表 在选择Nvidia驱动时,需要保证驱动版本兼容CUDA Toolkit版本,官方提供配套关系如下表。该表展示了CUDA Toolkit版本兼容的最低驱动版本,如需更精确的版本对照表,请参见CUDA Toolkit和驱动的版本兼容性列表。您可以根据应用所使用的CUDA
-
设置极速文件存储挂载参数 - 云容器引擎 CCE
pv-sfsturbo # PV的名称 spec: accessModes: - ReadWriteMany # 访问模式,极速文件存储必须为ReadWriteMany capacity: storage: 500Gi # 极速文件存储容量大小
-
节点干扰ContainerdSock检查异常处理 - 云容器引擎 CCE
节点干扰ContainerdSock检查异常处理 检查项内容 检查节点上是否存在干扰的Containerd.Sock文件。该文件影响euler操作系统下的容器运行时启动。 解决方案 问题场景:节点使用的docker为定制的Euler-docker而非社区的docker 登录相关节点。
-
通过Helm v2客户端部署应用 - 云容器引擎 CCE
elm。 mv linux-amd64/helm /usr/local/bin/helm 因为Kubernetes APIServer开启了RBAC访问控制,所以需创建tiller使用的service account:tiller并给其分配cluster-admin这个集群内置的
-
节点ARP表项超过限制 - 云容器引擎 CCE
最大为35个,那么net.ipv4.neigh.default.gc_thresh3建议配置为4096*35=143360个。 VPC网络模式集群: net.ipv4.neigh.default.gc_thresh3 = (单节点容器个数)^2 举例:当前节点容器小网段掩码为25
-
工作负载异常:启动容器失败 - 云容器引擎 CCE
请勿删除cce-pause等系统镜像,否则可能导致无法正常创建容器。 方案二:扩容磁盘 扩容磁盘的操作步骤如下: 在EVS控制台扩容数据盘。详情请参见扩容云硬盘容量。 在EVS控制台扩容成功后,仅扩大了云硬盘的存储容量,还需要执行后续步骤扩容逻辑卷和文件系统。 登录CCE控制台,进入集群,在左侧选择“节点管理”,单击节点后的“同步云服务器”。
-
设置极速文件存储挂载参数 - 云容器引擎 CCE
pv-sfsturbo # PV的名称 spec: accessModes: - ReadWriteMany # 访问模式,极速文件存储必须为ReadWriteMany capacity: storage: 500Gi # 极速文件存储容量大小
-
调度配置 - 云容器引擎 CCE
I训练和大数据作业场景。DRF调度算法优先考虑集群中业务的吞吐量,适用单次AI训练、单次大数据计算以及查询等批处理小业务场景。 启用公平调度(DRF)后,可增强集群业务的吞吐量,提高业务运行性能。详情请参见公平调度(DRF)。 组调度(Gang) Gang调度策略满足了调度过程中的“All
-
Kubernetes原生配置 - 云容器引擎 CCE
-cpu-initialization-period 这一时段定义了纳入HPA计算的CPU使用数据仅来源于已经达到就绪状态并完成了最近一次指标采集的Pods。它的目的是在Pod启动初期过滤掉不稳定的CPU使用数据,进而防止基于瞬时峰值做出错误的扩缩容决策。 配置建议:如果您观察到
-
使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE
no充分解决了上文提到的Kubeflow分布式训练面临的问题。 Volcano更多信息请参见:https://github.com/volcano-sh/volcano。 Volcano在华为云的应用 Kubeflow和Volcano两个开源项目的结合充分简化和加速了Kubern
-
补丁版本发布记录 - 云容器引擎 CCE
修复部分安全问题。 v1.21.1-r2 v1.21.7 容器存储支持本地持久卷。 支持管理EulerOS 2.9鲲鹏计算实例。 容器隧道网络模式和VPC网络模式支持OS内核版本宽匹配。 优化节点安装流程,增强节点创建的可靠性。 优化CentOS和EulerOS 2.5的内核参数,提升OS性能。
-
节点磁盘挂载 - 云容器引擎 CCE
storageSelectors根据storageType字段选择evs云盘或是local本地盘。 local本地盘无精确匹配模式,将全选所有本地盘作为数据盘。 若需保留部分本地盘,请在安装前启动脚本中将磁盘占用。类似如下脚本。 # prepare vgName=vg-test s
-
容器镜像签名验证 - 云容器引擎 CCE
版本:选择镜像版本,若不填或填写**则表示匹配该镜像的所有版本。 签名方式:选择KMS方式。 签名Key:选择一个KMS密钥,该密钥需要与安装插件时的密钥相同。 触发模式: 手动:创建完成签名规则后,需要手动执行规则来对镜像进行签名。 事件触发+手动:可通过事件触发签名动作,也可以手动执行规则对镜像进行签名。
-
事件监控 - 云容器引擎 CCE
通过图2中的柱状图,您可以观察24小时内Normal事件和Warning事件的数量变化趋势。 图2 Warning/Normal事件趋势 图3展示了24小时内事件数量排名前十的事件名称。 图3 24小时事件数量TOP 10 事件 事件搜索 事件页面的主要功能是展示按照一定条件搜索出的指定
-
设置文件存储挂载参数 - 云容器引擎 CCE
可选字段,删除PV,保留底层存储卷 name: pv-sfs spec: accessModes: - ReadWriteMany # 访问模式,文件存储必须为ReadWriteMany capacity: storage: 1Gi # 文件存储容量大小
-
云容器引擎-成长地图 - 云容器引擎 CCE
网络策略(NetworkPolicy) 弹性伸缩 工作负载伸缩 节点伸缩 其他 存储管理 插件管理 模板市场 权限管理 配置中心 02 购买 您可以灵活选择云容器引擎的计费模式、配置项,针对不同的应用场景,选择不同规格的集群和节点。 价格说明 计费说明 价格详情 购买集群 CCE Turbo集群与CCE集群的区别
-
使用AOM监控自定义指标 - 云容器引擎 CCE
自行开发的应用程序需要提供监控指标接口供采集,且监控数据需要满足Prometheus的规范,详情请参见Prometheus监控数据采集说明。 本文以Nginx为例采集监控数据,Nginx本身有个名叫ngx_http_stub_status_module的模块,这个模块提供了基本的监控功能,通过在nginx
-
使用Spark on CCE - 云容器引擎 CCE
value.split("\\s+")).groupByKey(value => value).count().count() 下述命令定义了各种数据来源: var alluxio = spark.read.textFile("alluxio://alluxio-master:19998/sample-1g")
-
监控运维配置 - 云容器引擎 CCE
要上报的事件添加至黑名单进行管理,其中“事件名称”可通过CCE事件列表查询。 普通事件上报:开启后,会将普通事件上报至AOM,系统默认配置了部分需要上报的普通事件。如果您需要自定义上报的事件,可以单击“配置白名单”,将需要上报添加至白名单进行管理,其中“事件名称”可通过CCE事件列表查询。