检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
请资源的Request/Limit差异很大,这直接导致了集群负载不均的问题: 集群中的部分节点,资源的真实使用率远低于资源申请值的分配率,却没有被调度更多的Pod,这造成了比较大的资源浪费。 集群中的另外一些节点,其资源的真实使用率事实上已经过载,却无法为调度器所感知到,这极大可能影响到业务的稳定性。
器,像使用本地文件目录一样。 数据共享:多台服务器可挂载相同的文件系统,数据可以共享操作和访问。 私有网络:数据访问必须在数据中心内部网络中。 容量与性能:单文件系统容量较高(PB级),性能极佳(IO读写时延ms级)。 应用场景:适用于多读多写(ReadWriteMany)场景下
TFJob可在GPU场景下进行,该场景需要集群中包含GPU节点,并安装合适的驱动。 在TFJob中指定GPU资源。 创建tf-gpu.yaml文件,示例如下: 该示例的主要功能是基于Tensorflow的分布式架构,利用卷积神经网络(CNN)中的ResNet50模型对随机生成的图像进行
paas的文件数据。 当前集群升级流程会将/var/paas路径下的文件的属主和属组均重置为paas。 请您参考下述命令排查当前业务Pod中是否将文件数据存储在/var/paas路径下,修改避免使用该路径,并移除该路径下的异常文件后重试检查,通过后可继续升级。 find /var/paas
API,来实现Docker容器逃逸。 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 Docker容器逃逸 CVE-2020-15257 中 2020-11-30 漏洞影响 CCE集群版本:v1.9-v1.17.9。 如果没有使用主机网络并且容器内进程不以root用户(UID为0)运行,则不涉及该漏洞。
ExecProbeTimeout 特性门控所提供的修复使集群操作员能够恢复到以前的行为,但这种行为将在后续版本中锁定并删除。 RuntimeClass已达到稳定状态。RuntimeClass资源提供了一种机制,用于支持集群中的多个运行时,并将有关该容器运行时的信息公开到控制平面。 kubectl调试已达到测
ExecProbeTimeout 特性门控所提供的修复使集群操作员能够恢复到以前的行为,但这种行为将在后续版本中锁定并删除。 RuntimeClass已达到稳定状态。RuntimeClass资源提供了一种机制,用于支持集群中的多个运行时,并将有关该容器运行时的信息公开到控制平面。 kubectl调试已达到测
ARM架构节点的EulerOS 2.8和EulerOS 2.9操作系统内核存在Bug,会触发kubelet驱逐Pod导致业务不可用。 该问题在以下版本中已被修复: EulerOS 2.8:内核版本kernel-4.19.36-vhulk1907.1.0.h1252.eulerosv2r8.aarch64
登录CCE控制台,单击集群名称进入集群,在总览页面找到“集群ID”并复制。 登录VPC控制台,在左侧导航栏中选择“访问控制 > 安全组”。 在筛选栏中,选择筛选条件为“描述”,并粘贴集群ID进行筛选。 筛选结果中将会包含多个安全组,找到控制节点的安全组(以[cce集群名称]-cce-control开头),单击“配置规则”。
e=frontend标签的Pod访问其6379端口,且该Pod只能访问带有role=web标签的Pod。网络策略中的Ingress和Egress可以定义在同一个规则中,具体操作步骤如下: 创建名为access-demo4.yaml文件。 vim access-demo2.yaml
cgroup,但在应用删除时,内核已经删除了 cgroup (/sys/fs/cgroup/memory下对应的cgroup目录已经删除), 但在内核中没有释放cssid,导致内核认为的cgroup的数量实际数量不一致,残留的cgroup达到节点上限后,导致该节点无法继续新建Pod。 解决方法
install:”后的信息,例如以下报错为default命名空间中的test-nginx工作负载出现冲突。 前往集群控制台或执行以下kubectl命令删除集群中的test-nginx工作负载。此处仅为示例,请根据实际报错信息进行删除。 kubectl delete deploy test-nginx
18 v1.25、v1.27、v1.28、v1.29、v1.30 若不需要使用ASM网格,可删除ASM网格后再进行升级,升级后集群不能绑定与表中不匹配的ASM网格版本。例如,使用v1.21版本集群与1.8版本ASM网格,若要升级至v1.25版本集群时,请先升级ASM网格至1.15版本后再进行v1
storage:subpath模式下,调整该参数的大小不会对SFS Turbo容量进行调整。实际上,subpath类型的卷是SFS Turbo中的一个文件路径,因此在PVC中对subpath类型的卷扩容时,不会同时扩容SFS Turbo资源。 subpath子目录的容量受限于SFS Turbo资源的总容量,若SFS
极速文件存储的共享路径。 volumeID 极速文件存储的ID。 获取方法:在CCE控制台,单击左侧栏目树中的“资源管理-存储管理”,在“极速文件存储卷”页签下单击PVC的名称,在PVC详情页中复制“PVC UID”后的内容即可。 storage 文件存储的大小。 storageClassName
在左侧导航栏中选择“集群管理”,单击要创建节点的集群进入集群控制台。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签并单击右上角的“创建节点”,在节点配置步骤中设置节点参数。 以下为开启安全加固关键参数设置,其余参数请根据需求设置。 在“操作系统”中选择“Huawei Cloud EulerOS 2
采集端点访问403的原因是什么?该如何处理? 为什么监控中心没有数据了? 可能原因一:云原生监控插件异常 请前往集群详情的“插件中心”页面,先检查插件云原生监控插件是否为“运行中”。 图1 检查插件运行状态 如果插件运行异常,可以根据云原生监控插件的实例的事件进行排查。 图2 查看插件事件 可能原因二:云原生监控插件对接的AOM实例被删除
https://github.com/kubernetes/dashboard/releases/tag/v1.10.1 漏洞影响 如果您的Kubernetes集群中独立部署了Kubernetes Dashboard v1.10及之前版本(v1.7.0-v1.10.0),同时支持登录功能且使用了自定义证书。
25集群:v1.25.9-r0及以上 v1.27集群:v1.27.6-r0及以上 v1.28集群:v1.28.4-r0及以上 其他更高版本的集群 集群中需提前部署可用的工作负载用于对外提供访问。若您无可用工作负载,可参考创建无状态负载(Deployment)、创建有状态负载(Stateful
PU卡才能运行起来。这样TFJob1和TFJob2处于互相等待对方释放资源,这种死锁情况造成了GPU资源的浪费。 亲和调度问题 分布式训练中,Ps和Worker存在很频繁的数据交互,所以Ps和Worker之间的带宽直接影响了训练的效率。 Kubernetes默认调度器并不考虑Ps