检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
jdb2/xxx blocked for more than 120 seconds. 如下图红框所示: 问题原理 BUS 0上热插PCI设备后,Linux内核会多次遍历挂载在BUS 0上的所有PCI-Bridge,且PCI-Bridge在被更新期间无法正常工作。在此期间,若设备使用的PCI
04的操作系统,详情请参见CCE集群IPVS转发模式下conn_reuse_mode问题说明。 iptables简介 iptables是一个Linux内核功能,提供了大量的数据包处理和过滤方面的能力。它可以在核心数据包处理管线上用Hook挂接一系列的规则。iptables模式中kube-proxy
通过特权容器功能优化内核参数 前提条件 从客户端机器访问Kubernetes集群,需要使用Kubernetes命令行工具kubectl,请先连接kubectl。详情请参见通过kubectl连接集群。 操作步骤 通过后台创建daemonSet,选择nginx镜像、开启特权容器、配置生命周期、添加hostNetwork:
化部署方式主要有4种,具体请参见表1。ClickHouse Operator是在Kubernetes上部署和管理ClickHouse集群的工具,它具备复制集群、管理用户与配置文件以及处理数据持久化的存储卷等功能。这些功能共同简化了应用程序的配置、管理和监控工作。 表1 ClickHouse容器化部署方式
通过Core Dump文件定位容器问题 应用场景 Core Dump是Linux操作系统在程序突然异常终止或者崩溃时将当时的内存状态记录下来,保存在一个文件中。通过Core Dump文件可以分析查找问题原因。 容器一般将业务应用程序作为容器主程序,程序崩溃后容器直接退出,且被回收销毁,因此容器Core
b管理的Pod根据用户的设置把任务成功完成就自动退出(Pod自动删除)。 CronJob CronJob是基于时间控制的Job,类似于Linux系统的crontab,在指定的时间周期运行指定的任务。 DaemonSet DaemonSet是这样一种对象(守护进程),它在集群的每个
云原生观测体系概述 云原生可观测性是指在云原生架构中,通过使用各种工具和技术来实现对应用程序和基础设施的监控告警、日志、故障排除等功能的一套完整的解决方案。本文介绍云容器引擎CCE可观测性架构分层和主要的可观测能力,以帮助您对CCE云原生可观测性生态有一个全面的认识。 图1 可观测性体系
运维人员自己配置管理系统和监控解决方案。企业自运维大批镜像资源,意味着要付出高昂的运维、人力、管理成本,且效率不高。 容器镜像服务支持Linux、ARM等多架构容器镜像托管。企业可以将镜像仓库迁移到容器镜像服务,节省运维成本。 如何把已有的镜像仓库平滑地迁移到容器镜像服务?这里将
ion.ipynb的过程。 OBS存储数据预置 创建OBS桶,并确认以下文件夹已创建,文件已上传至指定位置(需要使用OBS Browser工具)。 例如:桶内文件路径/文件名,文件下载地址可至github中指定项目的指定路径下查找,示例如1、2所示。 models/bvlc_re
下永远运行。Job管理的Pod根据用户的设置把任务成功完成就自动退出(Pod自动删除)。 CronJob:是基于时间的Job,就类似于Linux系统的crontab文件中的一行,在指定的时间周期运行指定的Job。 任务负载的这种用完即停止的特性特别适合一次性任务,比如持续集成。 创建Job
kubernetes.io/arch=amd64 beta.kubernetes.io/os=linux failure-domain.beta.kubernetes.io/is-baremetal=false
Available local 3s 备份工具资源分配不足 在生产环境中,当备份资源较多时,如备份工具资源大小使用默认值,可能会出现资源分配不足的情况,请参考以下步骤调整分配给Velero和Restic的CPU和内存大小。
包,并且软件包版本需要保持配套: 驱动GPU工作的硬件驱动程序,如Tesla系列驱动。 上层应用程序所需要的库,如CUDA Toolkit工具包。 在容器使用场景下,GPU驱动是安装在节点上的,而CUDA Toolkit一般会在应用程序的容器镜像构建时预安装,或者可直接使用Nvidia官方已预装CUDA
end-linux-amd64:1.5加tag docker tag defaultbackend-linux-amd64:1.5 swr.cn-north-4.myhuaweicloud.com/test-namespace/defaultbackend-linux-amd64:1
合企业备份/归档、视频点播、视频监控等多种数据存储场景。 标准接口:具备标准Http Restful API接口,用户必须通过编程或第三方工具访问对象存储。 数据共享:服务器、嵌入式设备、IOT设备等所有调用相同路径,均可访问共享的对象存储数据。 公共/私有网络:对象存储数据允许在公网访问,满足互联网应用需求。
实施步骤 集群外资源迁移 迁移工具安装 集群内资源迁移(Velero) 资源更新适配 其余工作 异常排查及解决 父主题: 将K8s集群迁移到CCE
ectl命令行操作筛选Pod,以便在GPU/NPU卡故障时能够及时将Pod驱逐。 前提条件 已创建CCE集群,且配置了kubectl命令行工具。详细操作可参考通过kubectl连接集群。 集群上安装了CCE AI套件(GPU/NPU),可参考CCE AI套件(NVIDIA GPU)和
修改最大文件句柄数 最大文件句柄数即打开文件数的最大限制,Linux系统中包含两个文件句柄限制:一个是系统级的,即所有用户的进程同时打开文件数的上限;一种是用户级的,即单个用户进程打开文件数的上限。但是在容器中,还有另一个文件句柄限制,即容器内部单进程最大文件句柄数。 修改节点系
方便精细化管理。 目标 对集群资源进行精细化管理,让特定用户只能拥有部分权限(如:增、查、改)。 注意事项 确保您的机器上有kubectl工具,若没有请到Kubernetes版本发布页面下载与集群版本对应的或者最新的kubectl。 配置方法 下述示例配置只能查看和添加test空
警并进行故障定位。 云监控服务AOM:CCE默认的基础资源监控,覆盖详细的容器相关指标,并提供告警配置能力。 开源Prometheus:面向云原生应用程序的开源监控工具,并集成独立的告警系统,提供更高自由度的监控告警配置。 监控 未配置监控告警,将无法建立容器集群性能的正常标准,