检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建PVC。 kubectl create -f pvc-evs-example.yaml 执行成功后,可以在“资源管理 > 存储管理”的云硬盘存储中查看创建的PVC,也可以在EVS页面根据名称查看EVS云硬盘。 (可选)增加集群关联的metadata,确保在删除节点或集群时避免删除已挂载的静态PV关联的EVS盘。
CCE容器实例弹性伸缩到CCI服务 基于Prometheus指标的弹性伸缩实践 基于ELB监控指标的弹性伸缩实践 通过Nginx Ingress对多个应用进行弹性伸缩
存储管理 如何扩容容器的存储空间? CCE支持的存储在持久化和多节点挂载方面的有什么区别? 创建CCE节点时可以不添加数据盘吗? CCE集群中的EVS存储卷被删除或者过期后是否可以恢复? 公网访问CCE部署的服务并上传OBS,为何报错找不到host? Pod接口ExtendPathMode:
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
go_goroutines gauge 当前时间goroutines个数 apiserver_current_inflight_requests gauge 最后一个窗口中,正在处理的请求数量 apiserver_request_duration_seconds_bucket histogram APIServer请求延时秒数
操作引起节点故障。 表1中的参数已经过测试验证,请勿自行修改其他参数以免引起节点故障。 修改节点系统参数的命令仅在使用公共镜像时有效,使用私有镜像时本文中提供的命令仅供参考。 节点重启后需执行sysctl -p用于刷新参数值。 表1 系统参数可优化列表 参数名称 参数位置 说明 参考文档
休眠/唤醒按需计费集群 操作场景 当按需计费的集群暂时不需要使用时,您可以将其设置为休眠状态,有助于节省成本并减少资源浪费。 集群休眠后,将无法在此集群上创建和管理工作负载等资源。 注意事项 集群唤醒过程中,可能会由于资源不足导致Master节点启动失败,从而导致集群唤醒失败,请过一段时间再次唤醒。
标签配置需要您自行保证,调度器不会对插件和节点配置进行检查。 表3 超卖标签配置调度说明 插件超卖配置 节点超卖标签 调度行为 有 有 超卖调度 有 无 正常调度 无 无 正常调度 无 有 无法调度,或者调度失败,应避免这种配置 使用kubectl连接集群。 确认Volcano插件配置。 kubectl
gRPC示意图 在gRPC中,客户端应用程序可以直接调用位于不同机器上的服务端应用方法,可以轻松创建分布式应用程序和服务。和许多其他RPC框架一样,使用gRPC需要定义调用服务的方法,包括参数和返回类型等,服务端需要实现被定义的方法,同时运行一个gRPC服务器来处理客户端请求。 准备工作
节点访问(NodePort) 负载均衡(LoadBalancer) DNAT网关(DNAT) Headless Service 父主题: 网络
Ingress对比 ELB Ingress管理 Nginx Ingress管理 自建Nginx Ingress迁移到ELB Ingress 父主题: 网络
Controller 自定义部署Nginx Ingress Controller Nginx Ingress Controller高级配置 父主题: 网络
通过CCE控制台可以方便地复制现有节点池的配置,从而创建新的节点池。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点池”页签。 单击节点池名称后的“更多 > 复制”。 图1 复制节点池 在弹出的“复制节点池”窗口中,可以看到复制的节点池配置,您可以根据需
在CCE集群中使用密钥Secret的安全配置建议 在CCE集群中使用工作负载Identity的安全配置建议 工作负载指标监控实践 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
集群网络、存储功能可靠性加固说明 发布时间:2024/04/26 当IAM服务发生区域性故障时,存在低概率触发鉴权异常,从而影响集群内工作负载存储卷挂载、负载均衡对接等功能。最新的集群版本针对该类故障场景进行了优化和加固,为确保您的业务稳定运行,建议您尽快将账号下的集群升级至目标版本。
包周期的CCE集群到期可以直接删除吗? CCE集群包周期到期后,您可以在备份好所有数据的情况下直接删除该集群。 如果到期后您仍没有续费或删除,系统会根据资源到期时间删除该集群,请及时续费并做好数据备份工作。 父主题: 计费类
扩展参数。 subJobs Array of Job objects 子任务的列表。 包含了所有子任务的详细信息 在创建集群、节点等场景下,通常会由多个子任务共同组成创建任务,在子任务都完成后,任务才会完成 表5 Job 参数 参数类型 描述 kind String API类型,固定值“Job”,该值不可修改。
盘的工作负载时,实际上节点可挂载的云硬盘为20-6=14。预留的6个挂盘数中,除去节点上已挂载的1块系统盘和1块数据盘后,还可以自定义挂载4块云硬盘,可以作为额外的数据盘或者作为裸盘用于创建本地存储池。该场景下,如果集群中需要调度18个挂载1块云硬盘的工作负载实例,则该节点最多可
进入/usr/local/nvidia/bin目录,执行nvidia-smi -q命令。 若nvidia-smi命令不存在或执行失败,有可能是驱动安装未就绪导致,可以重新安装GPU驱动后,再重试。 观察执行结果中的ECC ERROR(发生ECC故障的记录)。 Correctable Err
n:\$PATH export SPARK_HOME=/root/spark-obs EOF source ~/.bashrc 此时已经可以使用spark-submit等二进制,执行以下命令查看所用的Spark版本。 spark-submit --version 配置Spark对接OBS