检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
fmt.Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 表示获取指定集群升级引导任务详情成功 错误码 请参见错误码。 父主题: 集群升级
fmt.Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 表示绑定集群公网apiserver地址成功,解绑成功无响应体。 错误码 请参见错误码。
读写:可修改容器路径中的数据卷,容器迁移时新写入的数据不会随之迁移,会造成数据丢失。 本例中将该存储卷挂载到容器中/data路径下,在该路径下生成的容器数据会存储到本地持久存储中。 其余信息都配置完成后,单击“创建工作负载”。 工作负载创建成功后,容器挂载目录下的数据将会持久化保持,
targetPort: 9090 #Prometheus的默认端口号,无需更改 selector: #标签选择器可根据Prometheus Server实例的标签进行调整 app.kubernetes.io/name: prometheus
targetPort: 9090 #Prometheus的默认端口号,无需更改 selector: #标签选择器可根据Prometheus Server实例的标签进行调整 app.kubernetes.io/name: prometheus
daemon-reload && systemctl restart docker 其中1048576为最大文件句柄数的建议取值。 下图中命令仅做示例,请根据实际情况填写。 节点创建完成后,登录节点查看参数是否修改成功。 父主题: 节点系统参数优化
节点安装指定NVIDIA驱动版本。 从NVIDIA官方网站中下载指定的驱动版本,如何选择GPU节点驱动版本请参见选择GPU节点驱动版本。 记录当前版本驱动状态。根据CCE AI套件(NVIDIA GPU)插件版本差异,查询驱动的命令如下: 1.x.x版本执行: /opt/cloud/cce/nvidia/bin/nvidia-smi
规格配置 用于配置插件负载的实例数及资源配额。 选择“系统预置规格”时,您可选择“单实例”或“高可用”规格。 选择“自定义规格”时,您可根据需求修改插件各个组件的副本数以及CPU/内存配置。 说明: CCE 突发弹性引擎 (对接 CCI) 插件在1.5.2及以上版本,将占用更多
息,会增加与NFS服务器的通信开销和NFS客户端的内存消耗,同时同客户端设置nosharecache存在cache不一致的风险。因此,应该根据具体情况进行权衡,以确定是否需要使用nosharecache选项。 除了以上参数外,您还可以设置其他的文件存储挂载参数,具体请参见挂载NFS文件系统到云服务器(Linux)。
负载感知调度(Usage) 负载感知调度通过云原生监控插件(kube-prometheus-stack)获取各节点 CPU、内存的真实负载数据,根据用户指定的周期计算各节点的负载平均值,优先调度任务至真实负载较低的节点,实现节点负载均衡。详情请参见负载感知调度。 AI任务性能增强调度(Volcano调度器支持)
安装Kustomize Kustomize是一个开源工具,用于管理Kubernetes应用程序的配置。它允许您将应用程序的配置从应用程序本身中分离出来,并根据需要进行修改。从Kubeflow 1.3开始,所有组件都应仅使用Kustomize进行部署。 安装Kustomize。由于Kubeflow
fmt.Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 201 表示在指定集群下创建升级流程成功。 错误码 请参见错误码。 父主题: 集群升级
fmt.Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 表示更新集群升级引导任务状态成功 错误码 请参见错误码。 父主题: 集群升级
可能原因一:云原生监控插件异常 请前往集群详情的“插件中心”页面,先检查插件云原生监控插件是否为“运行中”。 图1 检查插件运行状态 如果插件运行异常,可以根据云原生监控插件的实例的事件进行排查。 图2 查看插件事件 可能原因二:云原生监控插件对接的AOM实例被删除 请在集群详情的“插件中心”页面,检查插件云原生监控插件的配置。
max_write 131072 仅配置big_writes的情况下才生效,推荐使用128KB。 ssl_verify_hostname 0 不根据主机名验证SSL证书。 max_background 100 可配置后台最大等待请求数。并行文件系统自动使用。 umask 0 配置文件权限的掩码。
创建PVC。 kubectl create -f pvc-example.yaml PVC创建后,就可以创建工作负载挂载PVC使用存储。 配置验证 根据上述步骤,使用IAM用户的密钥挂载对象存储卷。假设工作负载名称为obs-secret,容器内挂载目录是/temp,IAM用户权限为CCE
登录CCE控制台,进入集群,在左侧选择“节点管理”,单击节点后的“同步云服务器”。 登录目标节点。 使用lsblk命令查看节点块设备信息。 这里存在两种情况,根据容器存储Rootfs而不同。 Overlayfs:没有单独划分thinpool,在dockersys空间下统一存储镜像相关数据。 查看设备的磁盘和分区大小。
如果工作负载实例具有特定的节点选择器,且如果集群中的其他节点均不符合标准,则工作负载实例可能仍处于无法安排的状态。 节点池开启弹性伸缩 开启弹性伸缩后,节点池将根据集群负载情况自动创建或删除节点池内的节点。 节点池中的节点建议不要放置重要数据,以防止节点被弹性缩容,数据无法恢复。 节点池关闭弹性伸缩
io/eni-warm-policy),以启用集群级别配置的容器网卡动态预热的能力。 原理说明 CCE Turbo的容器网卡动态预热提供了4个相关的容器网卡动态预热参数,您可以根据业务规划,合理设置集群的配置管理或节点池的配置管理中的容器网卡动态预热参数(其中节点池的容器网卡动态预热配置优先级高于集群的容器网卡动态预热配置)。
实现存储卷迁移。 迁移时会造成服务断服,请合理规划迁移时间,并做好相关备份。 操作步骤 数据备份(可选,主要防止异常情况下数据丢失)。 根据FlexVolume格式的PV,准备CSI格式的PV的yaml文件关联已有存储。 执行如下命令,配置名为“pv-example.yaml”的创建PV的yaml文件。