检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用GPU虚拟化 本文介绍如何使用GPU虚拟化能力实现算力和显存隔离,高效利用GPU设备资源。 前提条件 已完成GPU虚拟化资源准备。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 单个GPU卡最多虚拟化成20个GPU虚拟设备。
100% packet loss Pod没有ping命令,需要添加ping命令,回显内容如下。 ping: command not found 下面以容器Nginx:latest为例介绍如何添加ping命令,若已有ping命令可跳过。 确保从Pod能够访问公网,请参见从Pod访问公网。
docker配置文件 containerd运行时或Centos-Group机器不检查 解决方案 建议您进行重置节点操作,参考重置节点。如果您不想重置节点,请联系技术支持人员恢复配置文件后进行升级。 父主题: 升级前检查异常问题排查
排查节点所在集群的子网是否配置了网络ACL,并限制了外部访问。 排查项三:检查容器DNS配置 在容器中执行cat /etc/resolv.conf命令,查看DNS配置。示例如下: nameserver 10.247.x.x search default.svc.cluster.local
受影响的集群版本: v1.15.11-r1 v.1.17.9-r0 只需对已有节点进行修复,新建节点默认无此问题。 升级过程需要重启auditd组件。 检查方法 以root用户登录node节点。 执行以下命令检查当前节点是否存在该问题: auditctl -l | grep "/var/lib/docker
请输入脚本命令,命令中不能包含中文字符。脚本命令会进行Base64转码。安装前/后执行脚本统一计算字符,转码后的字符总数不能超过10240。 脚本将在Kubernetes软件安装前执行,可能导致Kubernetes软件无法正常安装,需谨慎使用。 安装后执行脚本: 请输入脚本命令,命令
安装指定版本的Docker 登录ECS服务器。 在Huawei Cloud EulerOS 2.0操作系统下,可以使用如下命令快速安装最新版本的Docker。如以下命令无法自动化安装,请根据操作系统进行手动安装,详细操作请参见Docker Engine installation。 dnf install
通过CCE控制台或kubectl命令,将目标节点的GPU负载排空。 执行rmmod xgpu_km,进行GPU虚拟化模块的删除。 通过CCE控制台或kubectl命令,将目标节点的nvidia-gpu-device-plugin Pod进行删除。 等待nvidia-gpu-device-plugin
对形式保存数据,所不同的是在创建时,Secret的Value必须使用Base64编码。 对字符串进行Base64编码,可以直接使用“echo -n 要编码的内容 | base64”命令即可,示例如下: root@ubuntu:~# echo -n "3306" | base64 MzMwNg==
容器未能运行 发生这种情况的常见原因有如下几种: 命令中使用了未定义的flag,例如docker run --abcd。 镜像中用户定义的命令在本机权限不足。 容器引擎与宿主机操作系统或硬件不兼容。 126 命令调用错误 镜像中调用的命令无法执行,例如文件权限不足或文件不可执行。 127
其余信息都配置完成后,单击“创建工作负载”。 工作负载创建成功后,容器挂载目录下的数据将会持久化保持,您可以参考验证数据持久化及共享性中的步骤进行验证。 通过kubectl命令行使用已有极速文件存储 您可以根据不同的使用场景选择不同的创建方式。 使用已有极速文件存储 使用已有极速文件存储的子目录 使用kubectl连接集群。
docker docker-monit 检查是否有程序正在使用GPU卡设备。 运行命令: sudo fuser -v /dev/nvidia* 如无fuser命令(以基于RPM的Linux发行版为例),可执行命令yum install psmisc安装psmisc包。 # sudo fuser
Unable to find a match: socat 说明镜像未自带socat镜像,请手动下载rpm包,执行以下命令安装,其中rpm包名请根据实际情况进行替换: rpm -i socat-1.7.3.2-8.oe1.x86_64.rpm 表1 socat镜像rpm包下载地址
imagePullSecrets: - name: default-secret Exec Exec即执行具体命令,具体机制是Probe执行容器中的命令并检查命令退出的状态码,如果状态码为0则说明健康,定义方法如下所示。 apiVersion: v1 kind: Pod metadata:
es,该资源在正常情况下不建议手动操作。Everest每分钟会扫描空闲磁盘,并检查已添加进存储池的磁盘是否正常。 Everest使用LVM进行存储池管理,本地持久卷和本地临时卷均为LVM中的一个卷组(Volume Group,VG): 本地持久卷使用的卷组名称为:vg-evere
Server不安全端口,可以将--insecure-port=0添加到kubernetes API服务器命令行来禁用端口。 如集群内运行有不受信的容器,需要manifest文件中关闭CAP_NET_RAW能力,可执行如下命令: securityContext: capabilities:
对cluster-1集群执行以下命令,创建工作负载。 kubectl apply -f nginx-deploy.yaml 在cluster-2集群中部署相同的应用,重复执行以上命令,创建相同的工作负载。 步骤2:配置流量复制 cluster-2作为流量的接收方,不需要进行任何配置修改,只需要在cluster-1上配置即可。
Git项目仓库,可通过Web界面进行访问公开的或者私人项目。与Github类似,GitLab能够浏览源代码,管理缺陷和注释。可以管理团队对仓库的访问,它非常易于浏览提交过的版本并提供一个文件历史库。团队成员可以利用内置的简单聊天程序(Wall)进行交流。 GitLab的CI/CD
-qa | grep docker | grep euleros命令,如果结果不为空,说明节点上使用的docker为Euler-docker。 执行stat /run/containerd/containerd.sock命令,若发现存在该文件则会导致docker启动失败。 执行rm -rf
常Pod时,可采取以下步骤进行规避排查: 执行以下命令,将该Node标记为不可调度,并将已有Pod驱逐到其他节点。 kubectl drain <node-name> 等待Pod调度到其他节点后,排查文件系统异常的原因,并进行恢复或规避。 执行以下命令,取消节点不可调度标记。 kubectl