搜索_华为云

Tensorflow训练 - 云容器引擎 CCE
Tensorflow训练 - 云容器引擎 CCE

metadata: name: tfjob-simple namespace: kubeflow spec: tfReplicaSpecs: Worker: replicas: 2 restartPolicy: OnFailure template:

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
通过云原生日志采集插件采集容器日志 - 云容器引擎 CCE

置暂不生效。(插件1.3.0及以上版本没有该限制) 如果业务容器的数据目录是通过数据卷（Volume）挂载的，插件不支持采集它的父目录，需设置采集目录为完整的数据目录。当容器存活时间低于1分钟时，日志无法及时采集，可能存在日志丢失的情况。费用说明 LTS创建日志组免费，并每月

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 日志中心 > 收集容器日志
成本洞察概述 - 云容器引擎 CCE

源使用状况，进而识别可优化的应用。成本洞察关键能力丰富的容器成本覆盖范围：支持成本分析的费用包括CCE集群管理费用、CCE集群关联的ECS和EVS资源费用。基于计费账单的精准成本计算：使用真实账单进行成本分摊计算，精准统计集群成本。灵活的成本分摊策略：支持集群、命名空间、

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生成本治理 > 成本洞察
Volcano调度器版本发布记录 - 云容器引擎 CCE

修复多队列场景下Deployment扩缩容的问题调整默认开启的算法插件 1.2.5 v1.15 v1.17 v1.19 修复某些场景下OutOfcpu的问题修复queue设置部分capability情况下Pod无法调度问题支持volcano组件日志时间与系统时间保持一致修复队列间多抢占问题修复ioawar

帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 插件版本发布记录
调度算法 - 云容器引擎 CCE
调度算法 - 云容器引擎 CCE

cce-gpu-topology-predicate true/false true 允许 CCE Standard/CCE Turbo 一台AI服务器上共有8块NPU 1980芯片，4P * 2方式。每4块NPU 1980芯片之间通过HCCS互联，4块之间通过PCIe swith互联。 HCCS互联的4块NPU

帮助中心 > 云容器引擎 CCE > 配置参考 > 集群
操作系统镜像版本说明 - 云容器引擎 CCE

eulerosv2r9.x86 64 2024年9月更新系统内核，修复CVE-2024-1086安全漏洞。修复内核缺陷导致低概率出现虚拟机卡住的问题。 4.18.0-147.5.1.6.h1152.eulerosv2r9.x86_64 2024年4月更新系统内核，修复安全漏洞。

帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 操作系统镜像发布记录
通过节点池升级节点的GPU驱动版本 - 云容器引擎 CCE

务运行。登录CCE控制台，单击集群名称进入集群控制台。单击“节点管理”，找到更新驱动的节点池，单击“节点列表”。单击节点名称跳转到ECS界面。单击右上角“重启”。步骤三：验证驱动升级是否成功节点完成重启后，请稍等几分钟，等待驱动安装。登录节点，查看节点上的驱动是否更新。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
获取集群升级任务详情 - 云容器引擎 CCE

是 String 参数解释：项目ID，获取方式请参见如何获取接口URI中参数。约束限制：不涉及取值范围：账号的项目ID 默认取值：不涉及 cluster_id 是 String 参数解释：集群ID，获取方式请参见如何获取接口URI中参数。约束限制：不涉及取值范围：

帮助中心 > 云容器引擎 CCE > API参考 > API > 集群升级
将Prometheus监控数据上报至第三方监控平台 - 云容器引擎 CCE

如下：若您自建的Prometheus同样部署在K8s集群中，可进入Prometheus容器中查看。若您自建的Prometheus部署在虚拟机上，则可跳过本步骤。 kubectl exec -ti -n monitoring prometheus-server-0 -- sh 命令中变量可根据实际情况进行替换：

帮助中心 > 云容器引擎 CCE > 最佳实践 > 监控
在CCE Turbo集群中使用分布式云资源 - 云容器引擎 CCE

其他属性：分区包含资源类别，即中心云、智能边缘小站。该属性的配置方便后续负载的调度。约束与限制节点：分布式集群当前仅支持普通x86虚拟机。暂不支持节点迁移功能。节点池：节点池随机调度功能仅限于分区内。存储：当前仅支持在边缘区域创建云硬盘（EVS），其他种类存储方式不推荐使用。

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 购买集群
可优化的节点系统参数列表 - 云容器引擎 CCE

net.core.somaxconn /etc/sysctl.conf TCP最大连接数，该参数控制TCP连接队列的大小。参数值过小时极易不足，设置过大则可能会导致系统资源的浪费，因为连接队列中每个等待连接的客户端都需要占用一定的内存资源。查看参数： sysctl net.core.somaxconn

帮助中心 > 云容器引擎 CCE > 用户指南 > 节点 > 节点运维 > 节点系统参数优化
就绪探针（Readiness Probe） - 云容器引擎 CCE

period=10s 表示每10s探测一次 #success=1 探测连续1次成功表示成功 #failure=3 探测连续3次失败表示失败这些是创建时默认设置的，您也可以手动配置，如下所示。 readinessProbe: # Readiness Probe

帮助中心 > 云容器引擎 CCE > Kubernetes基础知识 > Kubernetes网络
批量添加指定集群的资源标签 - 云容器引擎 CCE

是 String 参数解释：项目ID，获取方式请参见如何获取接口URI中参数。约束限制：不涉及取值范围：账号的项目ID 默认取值：不涉及 cluster_id 是 String 参数解释：集群ID，获取方式请参见如何获取接口URI中参数。约束限制：不涉及取值范围：

帮助中心 > 云容器引擎 CCE > API参考 > API > 标签管理
云原生混部概述 - 云容器引擎 CCE

过程中，不同的业务架构有着不同的部署方案，不同架构的应用有着不同的演进节奏，不同的团队有着性能和服务质量的平衡点。面对这样复杂的场景，应该如何化繁为简，帮助用户有步骤的提升资源利用率和控制成本呢？ CCE通过多年在混合部署领域的探索和实践，围绕Volcano和Kubernetes

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > 云原生混部
为Pod配置固定EIP - 云容器引擎 CCE

io/eip-bandwidth-id 使用共享型带宽时必选空已有的带宽ID。不填写该字段时，则默认使用独占带宽的EIP。独占带宽EIP的参数设置请参见表1。填写该字段时，只允许同时指定yangtse.io/eip-network-type字段，且该字段为可选。 - 删除固定EIP

帮助中心 > 云容器引擎 CCE > 用户指南 > 网络 > 容器网络 > 云原生网络2.0模型
在CCE集群中部署使用Tensorflow - 云容器引擎 CCE

cation?hl=zh-cn。创建一个普通job，镜像输入第三方镜像tensorflow/tensorflow:1.15.5-gpu，设置对应的容器规格。启动命令添加 pip install matplotlib;python /home/basicClass.py 。挂载刚刚创建的OBS存储盘：

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算
使用kubectl对接已有极速文件存储卷 - 云容器引擎 CCE

存储容量，单位Gi，必须和已有pv的storage大小保持一致。 volumeName PV的名称。极速文件存储所在VPC，子网必须与工作负载规划部署的ECS虚拟机的VPC保持一致，安全组开放入方向端口(111、445、2049、2051、20048)。创建PV。 kubectl create -f

帮助中心 > 云容器引擎 CCE > 用户指南 > 存储管理-Flexvolume（已弃用） > 极速文件存储卷
监控中心概述 - 云容器引擎 CCE

nt的组件，用于采集指标、日志和应用性能数据。对于在ECS、BMS控制台直接购买的主机，您需手动安装ICAgent。对于集群节点，ICAgent会自动安装，您不用手动安装ICAgent。详情请参见安装ICAgent（华为云主机）。父主题：监控中心

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心
公平调度（DRF） - 云容器引擎 CCE

o调度器。公平调度介绍在实际业务中，经常会遇到将集群稀缺资源分配给多个用户的情况，每个用户获得资源的权利都相同，但是需求数却可能不同，如何公平的将资源分配给每个用户是一项非常有意义的事情。调度层面有一种常用的方法为最大最小化公平分配算法（max-min fairness sh

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度 > AI任务性能增强调度
手动更新GPU节点驱动版本 - 云容器引擎 CCE

drain 192.168.1.xx --ignore-daemonsets=true --delete-emptydir-data 参数详情请参见如何驱逐节点上的所有Pod。预期效果： node/192.168.1.xx drained 如果有DaemonSet工作负载使用了GPU卡，

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本

总条数： 904

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Tensorflow训练 - 云容器引擎 CCE

通过云原生日志采集插件采集容器日志 - 云容器引擎 CCE

成本洞察概述 - 云容器引擎 CCE

Volcano调度器版本发布记录 - 云容器引擎 CCE

调度算法 - 云容器引擎 CCE

操作系统镜像版本说明 - 云容器引擎 CCE

通过节点池升级节点的GPU驱动版本 - 云容器引擎 CCE

获取集群升级任务详情 - 云容器引擎 CCE

将Prometheus监控数据上报至第三方监控平台 - 云容器引擎 CCE

在CCE Turbo集群中使用分布式云资源 - 云容器引擎 CCE

可优化的节点系统参数列表 - 云容器引擎 CCE

就绪探针（Readiness Probe） - 云容器引擎 CCE

批量添加指定集群的资源标签 - 云容器引擎 CCE

云原生混部概述 - 云容器引擎 CCE

为Pod配置固定EIP - 云容器引擎 CCE

在CCE集群中部署使用Tensorflow - 云容器引擎 CCE

使用kubectl对接已有极速文件存储卷 - 云容器引擎 CCE

监控中心概述 - 云容器引擎 CCE

公平调度（DRF） - 云容器引擎 CCE

手动更新GPU节点驱动版本 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线