检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Worker),使用默认调度器,有可能会出现(a)、(b)、(c)三种情况的任意一种情况,(c)才是最想要的调度结果。因为在(c)中,Ps和Worker可以利用本机网络提供传输效率,缩短训练时间。 Volcano批量调度系统:加速AI计算的利器 Volcano是一款构建于Kubernetes之上的增强型高
以登录ECS控制台对节点进行密码重置操作,重置密码后即可使用密码登录CCE服务中的节点。 操作步骤 登录ECS控制台。 在左侧弹性云服务器列表中,选择待操作节点对应的云服务器,单击后方操作列中的“更多 > 关机”。 待云服务器关机后,单击待操作节点后方操作列中的“更多 > 重置密
在左侧导航栏中选择“存储”,并切换至“存储池”页签。 查看已添加磁盘的节点,选择“导入临时卷”,导入时可以选择写入模式。 如存储池列表中未找到手动挂载的磁盘,请耐心等待1分钟后刷新列表。 线性:线性逻辑卷是将一个或多个物理卷整合为一个逻辑卷,实际写入数据时会先往一个基本物理卷上写入,当存储空间占满时再往另一个基本物理卷写入。
容器组(Pod)是Kubernetes创建或部署的最小单位。一个Pod封装一个或多个容器(Container)、存储资源(Volume)、一个独立的网络IP以及管理控制容器运行方式的策略选项。 Pod使用主要分为两种方式: Pod中运行一个容器。这是Kubernetes最常见的用法,您可以
功能。 升级到支持增强型CPU管理策略的集群版本,支持增强型CPU管理策略的集群版本如下表所示: 表1 支持增强型CPU管理策略的集群版本列表 集群版本 是否支持增强型CPU管理策略功能 v1.17及以下版本 不支持 v1.19 不支持 v1.21 不支持 v1.23及以上版本 支持
URL、TOP 访问IP。 CCE提供NGINX Ingress秒级监控能力,收集和分析关键性能指标,可实时洞察NGINX Ingress网络流量和应用性能,包括QPS、成功率、延迟、流量、状态码、后端响应码等图表。 父主题: 日志中心
登录CCE控制台,单击集群名称进入集群。 在左侧列表中选择“容器存储”,切换至“存储卷”页签,单击PVC(名为pvc-prometheus-server-0)对应的卷名称跳转至云硬盘详情页面。 图2 存储卷 在基本信息中查看云硬盘的可用区。 图3 云硬盘详情 在CCE控制台左侧列表中选择“节点管理”,单击“创建节点”,创建一个该可用区的节点。
在左侧导航栏中选择“存储”,并切换至“存储池”页签。 查看已添加磁盘的节点,选择“导入持久卷”,导入时可以选择写入模式。 如存储池列表中未找到手动挂载的磁盘,请耐心等待1分钟后刷新列表。 线性:线性逻辑卷是将一个或多个物理卷整合为一个逻辑卷,实际写入数据时会先往一个基本物理卷上写入,当存储空间占满时再往另一个基本物理卷写入。
CCE采用标准镜像的脚本进行节点配置一致性检查,如您使用其它自定义镜像有可能导致检查失败。 当前可预期的修改将不会进行拦截,可预期修改的参数列表如下: 表1 可预期修改的参数列表 组件 配置文件 参数 升级版本 kubelet /opt/cloud/cce/kubernetes/kubelet/kubelet_config
在TFJob中指定GPU资源。 创建tf-gpu.yaml文件,示例如下: 该示例的主要功能是基于Tensorflow的分布式架构,利用卷积神经网络(CNN)中的ResNet50模型对随机生成的图像进行训练,每次训练32张图像(batch_size),共训练100次(step),记录每
skippedCheckItemList 否 Array of skippedCheckItemList objects 参数解释: 跳过检查的项目列表 约束限制: 不涉及 取值范围: 不涉及 表4 skippedCheckItemList 参数 是否必选 参数类型 描述 name 否 String
SM(Streaming Multiprocessor)上处于Active的时间占比。 该值表示所有SM的平均值,且该值对每个块的线程数不敏感。 线程束处于Active是指一个线程束被调度且分配资源后的状态,可能是在Computing、也可能是非Computing状态(例如等待内存请求)。
若能正常返回GPU信息,说明设备可用,插件安装成功。 GPU驱动支持列表 当前GPU驱动支持列表仅针对1.2.28及以上版本的GPU插件。 如果您需要安装最新版本的GPU驱动,请将您的GPU插件升级到最新版本。 表2 GPU驱动支持列表 GPU型号 支持集群类型 机型规格 操作系统 Huawei
本示例需要建立2条权限,即example1和example2,分别配置给group1和group2。 在权限管理列表中可以看到新建的权限。 图8 权限管理列表 步骤四:权限验证 利用步骤一:创建用户与用户组新建的用户登录管理控制台,检查用户是否具有对应权限。本节以步骤一中新建
Clusters objects 集群列表。 users Array of Users objects 存放了指定用户的一些证书信息和ClientKey信息。 contexts Array of Contexts objects 上下文列表。 current-context String
K8s节点污点检查异常处理 检查项内容 检查节点上是否存在集群升级需要使用到的污点。 表1 检查污点列表 污点名称 污点影响 node.kubernetes.io/upgrade NoSchedule 解决方案 问题场景一:该节点为集群升级过程中跳过的节点。 配置Kubectl命
单个资源到期转按需:选择需要更改计费模式的资源,单击操作列“更多 > 到期转按需”。 图2 单个资源转按需 批量资源到期转按需:选择需要更改计费模式的资源,单击列表左上角的“到期转按需”。 图3 多个资源转按需 查看资费变更的相关信息后,单击“到期转按需”。 图4 到期转按需 父主题: 变更计费模式
Pod:只有创建了无状态工作负载(Deployment)和有状态工作负载(StatefulSet)后,对应Pod实例才会在工作负载详情页的“实例列表”页签中显示。 Service:Service当前在无状态工作负载(Deployment)和有状态工作负载(StatefulSet)详情页的“访问方式”页签中显示。
排查项五: 远程镜像仓库使用非知名或不安全的证书 从第三方仓库下载镜像时,若第三方仓库使用了非知名或者不安全的证书,节点上会拉取镜像失败,Pod事件列表中有“实例拉取镜像失败”事件,报错原因为"x509: certificate signed by unknown authority"。 当前EulerOS
在通知内容模板中以$event.annotations.标注名被引用。一共可以添加10个告警标注。 单击“确定”,然后可前往自定义告警规则列表中查看规则是否创建成功。 添加事件类告警 基于事件触发的告警规则依赖开通日志中心并开启Kubernetes事件采集,前往日志中心一键开通。