检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
prometheus-adapter -n monitoring 修改prometheus-url参数值如下: HTTPS协议修改为HTTP协议。 默认域名修改为Prometheus Service的IP和端口,可通过kubectl get service -n monitoring命令查询。
配置装箱调度策略 安装Volcano后,Binpack策略默认生效。如果默认配置无法达到您降低资源碎片的目标,可以通过“配置中心 > 调度配置”页面自定义Binpack策略权重和各资源维度权重值,增加或降低Binpack策略在整体调度中的影响力。 登录CCE控制台。 单击集群名称进入集
下面以CCE集群为例,介绍如何查看指定资源的账单。 登录CCE控制台,单击集群名称进入集群。 在集群总览页,复制集群ID。 图1 获取资源ID 进入“流水和明细账单”页面。 选择“明细账单”,在筛选条件中选择“资源ID”,并输入步骤2复制的资源ID,单击图标即可搜索该资源的账单。 图2 查询资源账单 这里设
node.kubernetes.io/not-ready:节点未准备好。 node.kubernetes.io/unreachable:节点控制器访问不到节点。 node.kubernetes.io/memory-pressure:节点存在内存压力。 node.kubernetes.io
NVRM,观察结果输出。 假如存在Xid(PCI:0000:00:0x): xx格式的信息,则需要收集错误码,根据Nvidia Xid Error页面中确认详细原因。然后将详细原因和错误信息,根据GPU设备所在的节点类型(ECS或BMS),联系对应的客服进行处理。 GPU虚拟化设备可用内存远小于GPU物理显存
查看容器日志 docker logs crictl logs 无 查看容器的资源使用情况 docker stats crictl stats 无 更新容器资源限制 docker update crictl update 无 表7 Pod相关功能 操作 Docker命令 Containerd命令
服务器)节点、DeH(专属主机)节点。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 调用方法 请参见如何调用API。 URI POST /api/v3/projects/{project_id}/clusters
ubectl连接集群。 步骤一:安装云原生监控插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”。 在“插件中心”页面右侧找到云原生监控插件,单击“安装”。 建议您关注以下配置,其他配置可按需进行设置。详情请参见云原生监控插件。 本地数据存储:使用本地存储
登录集群查看拉取镜像失败原因,重新部署业务负载 登录AOM 2.0控制台。 在左侧导航栏选择“告警中心 > 告警规则”,单击“创建告警规则”。 根据页面提示填写基本信息后,设置告警规则。关键参数如下: 详细参数说明请参见创建事件类告警规则。 规则类型:选择“事件告警规则”。 事件类型:选择“系统事件”。
当集群资源不足时,调度器主动驱逐低优先级业务,保障高优先级业务正常调度。 配置优先级调度与抢占策略 安装Volcano后,您可通过“配置中心 > 调度配置”页面选择开启或关闭优先级抢占调度能力。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“配置中心”,在右侧选择“调度配置”页签。 在“业
登录CCE控制台,单击集群名称进入一个集群。 在CCE集群上部署Volcano环境。 单击左侧栏目树中的“插件管理”,单击Volcano插件下方的“安装”,在安装插件页面中选择插件的规格配置,并单击“安装”。 部署Mnist示例。 下载kubeflow/examples到本地并根据环境选择指南,命令如下: yum
登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到需要退订的集群,查看集群的更多操作,并单击“退订”或“释放”。 图2 集群退订 在弹出的“退订”或“释放”页面中,勾选要释放的资源。 删除集群节点,可支持以下操作选项: 保留:保留服务器、系统盘和数据盘数据。 删除:删除服务器(包周期节点不支持此选项,请进行手动退订)。
当节点池中包含多个规格时,您可以对每个规格的节点数范围和优先级进行单独配置。 查看集群级别的弹性伸缩配置,集群级别的配置对所有节点池生效。当前页面仅支持查看集群级别的弹性伸缩策略,如需修改请前往“配置中心”进行设置,详情请参见配置集群弹性伸缩策略。 设置完成后,单击“确定”。 配置集群弹性伸缩策略
“日志中心”。 未进行授权的用户需要先授权,已授权的用户直接跳转下一步。 在弹出框中单击“确认授权”。 图1 添加授权 页面单击“开启”,等待约30秒后,页面自动跳转。 图2 开启 采集容器标准输出:开启后,将创建名为default-stdout的日志策略,并上报所有命名空间下的标准输出到云日志服务(LTS)。
调度策略添加完成后,单击“创建工作负载”。 验证Pod全部运行在目标节点上。 在集群控制台左侧导航栏中选择“工作负载”。 单击工作负载名称,进入详情页面,查看实例列表,验证Pod全部运行在目标节点上,即节点包含gpu=true标签。 工作负载节点亲和性规则通过节点标签实现。CCE集群中节点
离线类型。根据应用对资源质量需求的差异,在线应用可以归纳为延时敏感型LS(Latency Sensitive),通常对请求压力(QPS)或访问延迟(RT)等指标有明确的要求,对资源质量较为敏感;离线应用可以归纳为资源消耗型BE(Best Effort),通常是一些计算密集型的任务
io/share-export-location:挂载目录配置。由SFS Turbo共享路径和子目录组成,共享路径可至SFS Turbo服务页面查询,子路径由用户自定义,后续指定该StorageClass创建的PVC均位于该子目录下。 everest.io/share-volume-type:选填字段。填写SFS
io/share-export-location:挂载目录配置。由SFS Turbo共享路径和子目录组成,共享路径可至SFS Turbo服务页面查询,子路径由用户自定义,后续指定该StorageClass创建的PVC均位于该子目录下。 everest.io/share-volume-type:选填字段。填写SFS
由于业务容器运行时共享节点的内核及底层调用,为保证兼容性,建议节点的操作系统选择与最终业务容器镜像相同或接近的Linux发行版本。 安全加固 等保加固会对身份鉴别、访问控制、安全审计、入侵防范、恶意代码防范进行检查并加固。详情请参见Huawei Cloud EulerOS 2.0等保2.0三级版镜像概述。
lvolume-ephemeral 本文以本地持久卷举例,修复本地临时卷时,使用相应的卷组即可。 本文提供的指导仅能恢复误卸载磁盘后存储池页面显示“不可用”状态,修复后可重新导入持久卷或临时卷,但无法恢复原有数据。 问题现象 当用户错误卸载存储池的磁盘时,会导致该节点存储池状态不可用。