检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用。 图1 获取VPC的ID 创建子网 登录管理控制台,选择“网络 > 虚拟私有云 VPC”。 在“虚拟私有云”列表页面,单击左侧导航栏中“虚拟私有云 > 子网”,单击右上角“创建子网”。 按照页面提示完成子网创建,并单击子网的名称,获取子网的“网络ID”,后续创建集群时需要使用。
存,请按需使用。 每开启一个基于流的IP监控任务(一个MonitorPolicy中开启一个和多个IP监控项)会占用内核2.6M内存;每开启一个基于流的TCP监控任务(一个MonitorPolicy中开启一个和多个TCP监控项)会占用内核14M内存。 apiVersion: crd
VPC网络模式下,集群每添加一个节点,会在VPC的路由表中添加一条路由(包括默认路由表和自定义路由表),因此集群本身规模受VPC路由表上限限制,创建前请提前评估集群规模。路由表配额请参见使用限制。 最大可支持2000节点 由于云原生网络2.0集群中的容器从VPC网段内分配IP地址,消耗VPC
nvidia0 | awk '{print $1, $2}' 该命令查找了192.168.0.106节点上所有的Pod,并且查找了annotation中存在nvidia0(代表第0张卡)信息的Pod。最终输出了Pod所在的命名空间和Pod名称。查询结果如下: 代表default命名空间下名为
用,否则可能导致日志过多占满所在节点磁盘。 使用Volcano调度工作负载 使用Volcano调度工作负载时,只需要在Pod的spec字段中设置schedulerName参数并指定参数值为volcano,示例如下: 使用yaml创建queue: apiVersion: scheduling
登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中选择“节点管理”,并切换至“节点池”页签。 单击待迁移的节点池名称后的“节点列表”。 在需要迁移的节点的“操作”栏中,单击“更多 > 迁移”,迁移单个节点。 图1 迁移节点到默认节点池 在弹出的“迁移节点”窗口中进行确认。 迁移完成后,节点上用户自定义的资源标签、K8s标签、污点不受影响。
spec 存储类 存储类决定了PVC的类型 参数名 取值范围 默认值 是否允许修改 作用范围 storageClassName 集群中存在的存储类 无 支持初始化时配置,不支持后续修改 - 存储类决定了PVC的类型,如块存储、对象存储、文件存储等。一旦指定后不允许修改 配置建议:
器,像使用本地文件目录一样。 数据共享:多台服务器可挂载相同的文件系统,数据可以共享操作和访问。 私有网络:数据访问必须在数据中心内部网络中。 安全隔离:直接使用云上现有IAAS服务构建独享的云文件存储,为租户提供数据隔离保护和IOPS性能保障。 应用场景:适用于多读多写(Rea
TFJob可在GPU场景下进行,该场景需要集群中包含GPU节点,并安装合适的驱动。 在TFJob中指定GPU资源。 创建tf-gpu.yaml文件,示例如下: 该示例的主要功能是基于Tensorflow的分布式架构,利用卷积神经网络(CNN)中的ResNet50模型对随机生成的图像进行
位的准确性,还显著减少了运维人员的工作负担,从而提升了整体运维效率。 前提条件 已获取资源权限。 集群版本高于v1.17。 集群处于“运行中”状态。 选择Pod进行诊断 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“健康中心”, 单击“Pod”页签 。 在“
器,像使用本地文件目录一样。 数据共享:多台服务器可挂载相同的文件系统,数据可以共享操作和访问。 私有网络:数据访问必须在数据中心内部网络中。 容量与性能:单文件系统容量较高(PB级),性能极佳(IO读写时延ms级)。 应用场景:适用于多读多写(ReadWriteMany)场景下
API,来实现Docker容器逃逸。 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 Docker容器逃逸 CVE-2020-15257 中 2020-11-30 漏洞影响 CCE集群版本:v1.9-v1.17.9。 如果没有使用主机网络并且容器内进程不以root用户(UID为0)运行,则不涉及该漏洞。
登录CCE控制台,单击集群名称进入集群,在总览页面找到“集群ID”并复制。 登录VPC控制台,在左侧导航栏中选择“访问控制 > 安全组”。 在筛选栏中,选择筛选条件为“描述”,并粘贴集群ID进行筛选。 筛选结果中将会包含多个安全组,找到控制节点的安全组(以[cce集群名称]-cce-control开头),单击“配置规则”。
采集端点访问403的原因是什么?该如何处理? 为什么监控中心没有数据了? 可能原因一:云原生监控插件异常 请前往集群详情的“插件中心”页面,先检查插件云原生监控插件是否为“运行中”。 图1 检查插件运行状态 如果插件运行异常,可以根据云原生监控插件的实例的事件进行排查。 图2 查看插件事件 可能原因二:云原生监控插件对接的AOM实例被删除
storage:subpath模式下,调整该参数的大小不会对SFS Turbo容量进行调整。实际上,subpath类型的卷是SFS Turbo中的一个文件路径,因此在PVC中对subpath类型的卷扩容时,不会同时扩容SFS Turbo资源。 subpath子目录的容量受限于SFS Turbo资源的总容量,若SFS
极速文件存储的共享路径。 volumeID 极速文件存储的ID。 获取方法:在CCE控制台,单击左侧栏目树中的“资源管理-存储管理”,在“极速文件存储卷”页签下单击PVC的名称,在PVC详情页中复制“PVC UID”后的内容即可。 storage 文件存储的大小。 storageClassName
在左侧导航栏中选择“集群管理”,单击要创建节点的集群进入集群控制台。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签并单击右上角的“创建节点”,在节点配置步骤中设置节点参数。 以下为开启安全加固关键参数设置,其余参数请根据需求设置。 在“操作系统”中选择“Huawei Cloud EulerOS 2
25集群:v1.25.9-r0及以上 v1.27集群:v1.27.6-r0及以上 v1.28集群:v1.28.4-r0及以上 其他更高版本的集群 集群中需提前部署可用的工作负载用于对外提供访问。若您无可用工作负载,可参考创建无状态负载(Deployment)、创建有状态负载(Stateful
容器与Kubernetes 容器 Kubernetes 使用Kubectl命令操作集群 Pod、Label和Namespace Pod:Kubernetes中的最小调度对象 存活探针(Liveness Probe) Label:组织Pod的利器 Namespace:资源分组 Pod的编排与调度 无状态负载(Deployment)
PU卡才能运行起来。这样TFJob1和TFJob2处于互相等待对方释放资源,这种死锁情况造成了GPU资源的浪费。 亲和调度问题 分布式训练中,Ps和Worker存在很频繁的数据交互,所以Ps和Worker之间的带宽直接影响了训练的效率。 Kubernetes默认调度器并不考虑Ps