检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE集群中的节点无法远程登录,如何排查解决? CCE创建节点成功后,无法ssh远程登录。ssh回显提示“所选的用户密钥未在远程主机上注册”,即root用户不能直接登录到节点。 出现上述问题的原因是CCE创建的节点安装了cloudinit,有默认的linux用户,并且该密钥也是用于linux。
负载均衡器配置:后端服务器(组)配置 会话保持模式 监听器的会话保持类型 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation: kubernetes.io/elb.session-affinity-mode HTTP_COOKIE、APP_COOKIE
ect_id}/clusters/{cluster_id}/clustercert 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方式请参见如何获取接口URI中参数 cluster_id 是 String 集群 ID,获取方式请参见如何获取接口URI中参数
可移植的包,这个包可以被用来在任何其他运行Docker的机器上使用。 容器和虚拟机具有相似的资源隔离和分配方式,容器虚拟化了操作系统而不是硬件,更加便携和高效。 图1 容器 vs 虚拟机 相比于使用虚拟机,容器有如下优点: 更高效地利用系统资源 由于容器不需要进行硬件虚拟以及运行
io/elb.cert-id String ELB服务中的证书ID,作为HTTPS服务器证书。 获取方法:在CCE控制台,单击顶部的“服务列表 > 网络 > 弹性负载均衡”,并选择“证书管理”。在列表中复制对应证书名称下的ID即可。 v1.19.16及以上 具体使用场景和说明请参见为负载
集群内部无法使用ELB地址访问负载 问题现象 在集群内部(节点上或容器中),使用ELB地址无法访问。 问题原因 当Service设置了服务亲和为节点级别,即externalTrafficPolicy取值为Local时,在使用中可能会碰到从集群内部(节点上或容器中)访问不通的情况,回显类似如下内容:
节点远程登录界面(VNC)打印较多source ip_type日志问题 问题场景 集群版本:v1.15.6-r1版本 集群类型:CCE集群 网络模式:VPC网络 节点操作系统:CentOS 7.6 上述节点的容器进行容器间通信时,由于容器网络组件在VNC界面打印较多source ip_type或者not
加权轮询算法:根据后端服务器的权重,按顺序依次将请求分发给不同的服务器。它用相应的权重表示服务器的处理性能,按照权重的高低以及轮询方式将请求分配给各服务器,相同权重的服务器处理相同数目的连接数。常用于短连接服务,例如HTTP等服务。 加权最少连接:最少连接是通过当前活跃的连接数来估计服务器负载情
容器所在节点类型 弹性云服务器-物理机 弹性云服务器-虚拟机 弹性云服务器-物理机 容器引擎 Containerd Docker、Containerd 容器运行时 Kata runC 容器内核 独占内核 与宿主机共享内核 容器隔离方式 轻量虚拟机 Cgroups和Namespace
建议临时申请,制作完成后删除。 ECS_VPC_ID 虚拟私有云ID。 临时ECS服务器使用,需要与执行机一致。 ECS_NETWORK_ID 子网的网络ID。 临时ECS服务器使用,建议与执行机一致,非子网的子网ID。 ECS_SECGRP_ID 安全组ID。 临时ECS服务器使用,该安全组入
用场景。集群在创建时将会自动为Master节点和Node节点分别创建一个安全组,其中Master节点的安全组名称是:{集群名}-cce-control-{随机ID};Node节点的安全组名称是:{集群名}-cce-node-{随机ID}。使用CCE Turbo集群时会额外创建一个
取值范围: 账号的项目ID 默认取值: 不涉及 cluster_id 是 String 参数解释: 集群ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围: 集群ID 默认取值: 不涉及 nodepool_id 是 String 参数解释: 节点池ID,获取方式请参见如何获取接口URI中参数。
jobID String 参数解释: 任务ID,集群当前状态关联的任务ID。当前支持: 创建集群时返回关联的任务ID,可通过任务ID查询创建集群的附属任务信息; 删除集群或者删除集群失败时返回关联的任务ID,此字段非空时,可通过任务ID查询删除集群的附属任务信息。 约束限制: 不涉及
到2个GPU。但是TFJob1和TFJob2均需要4块GPU卡才能运行起来。这样TFJob1和TFJob2处于互相等待对方释放资源,这种死锁情况造成了GPU资源的浪费。 亲和调度问题 分布式训练中,Ps和Worker存在很频繁的数据交互,所以Ps和Worker之间的带宽直接影响了训练的效率。
/api/v3/projects/{project_id}/clusters/{cluster_id}/nodes/add 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 参数解释: 项目ID,获取方式请参见如何获取接口URI中参数。 约束限制:
jobID String 参数解释: 任务ID,集群当前状态关联的任务ID。当前支持: 创建集群时返回关联的任务ID,可通过任务ID查询创建集群的附属任务信息; 删除集群或者删除集群失败时返回关联的任务ID,此字段非空时,可通过任务ID查询删除集群的附属任务信息。 约束限制: 不涉及
Standard集群: 弹性云服务器-虚拟机:基于弹性云服务器部署容器服务。 弹性云服务器-物理机:基于擎天架构的服务器部署容器服务。 裸金属服务器:基于裸金属服务器部署容器服务,需要挂载本地盘或支持挂载云硬盘。 CCE Turbo集群: 弹性云服务器-虚拟机:基于弹性云服务器部署容器服务,仅支持可添加多张弹性网卡的机型。
附加到您的云服务器实例(包括弹性云服务器和裸金属服务器)上,实现灵活、高可用的网络方案配置。 弹性网卡类型 主弹性网卡:在创建云服务器实例时,随实例默认创建的弹性网卡称作主弹性网卡。主弹性网卡无法与实例进行解绑。 扩展弹性网卡:您可以创建扩展弹性网卡,将其附加到云服务器实例上,您
有云”,按照提示完成创建。 创建完成后返回虚拟私有云列表,单击创建的VPC名称,在详情页获取VPC的ID,后续创建集群时需要使用。 图1 获取VPC的ID 创建子网 登录管理控制台,选择“网络 > 虚拟私有云 VPC”。 在“虚拟私有云”列表页面,单击左侧导航栏中“虚拟私有云 >
搭建Jenkins和Gitlab环境 前提条件 创建一个新的VPC,本示例中名为vpc-X,所使用网段为192.168.0.0/16。 创建一台位于vpc-X(192.168.0.0/16网段)的ECS服务器,推荐规格为4vCPUs 16GiB,系统为Huawei Cloud EulerOS