云服务器内容精选

  • 6、GPU类型边缘节点未安装GPU驱动 如果边缘节点使用GPU,您需要在纳管前安装GPU驱动。IEF当前支持Nvidia Tesla系列P4、P40、T4等型号GPU,支持CUDA Toolkit 8.0至11.0版本对应的驱动。 安装GPU驱动。 IEF当前支持Nvidia Tesla系列P4、P40、T4等型号GPU,支持CUDA Toolkit 8.0至11.0版本对应的驱动。 下载GPU驱动,推荐驱动链接: https://www.nvidia.com/content/DriverDownload-March2009/confirmation.php?url=/tesla/440.33.01/NVIDIA-Linux-x86_64-440.33.01.run&lang=us&type=Tesla 执行如下安装驱动命令。 bash NVIDIA-Linux-x86_64-440.33.01.run 执行如下命令检查GPU驱动安装状态。 nvidia-smi 拷贝GPU驱动文件到指定目录。 以root用户登录边缘节点。 执行如下命令。 nvidia-modprobe -c0 -u 创建文件夹。 mkdir -p /var/IEF/nvidia/drivers /var/IEF/nvidia/bin /var/IEF/nvidia/lib64 拷贝驱动文件。 对于CentOS,依次执行如下命令拷贝驱动文件: cp /lib/modules/{当前环境内核版本号}/kernel/drivers/video/nvi* /var/IEF/nvidia/drivers/ cp /usr/bin/nvidia-* /var/IEF/nvidia/bin/ cp -rd /usr/lib64/libcuda* /var/IEF/nvidia/lib64/ cp -rd /usr/lib64/libEG* /var/IEF/nvidia/lib64/ cp -rd /usr/lib64/libGL* /var/IEF/nvidia/lib64/ cp -rd /usr/lib64/libnv* /var/IEF/nvidia/lib64/ cp -rd /usr/lib64/libOpen* /var/IEF/nvidia/lib64/ cp -rd /usr/lib64/libvdpau_nvidia* /var/IEF/nvidia/lib64/ cp -rd /usr/lib64/vdpau /var/IEF/nvidia/lib64/ 对于Ubuntu,依次执行如下命令拷贝驱动文件: cp /lib/modules/{当前环境内核版本号}/kernel/drivers/video/nvi* /var/IEF/nvidia/drivers/ cp /usr/bin/nvidia-* /var/IEF/nvidia/bin/ cp -rd /usr/lib/x86_64-linux-gnu/libcuda* /var/IEF/nvidia/lib64/ cp -rd /usr/lib/x86_64-linux-gnu/libEG* /var/IEF/nvidia/lib64/ cp -rd /usr/lib/x86_64-linux-gnu/libGL* /var/IEF/nvidia/lib64/ cp -rd /usr/lib/x86_64-linux-gnu/libnv* /var/IEF/nvidia/lib64/ cp -rd /usr/lib/x86_64-linux-gnu/libOpen* /var/IEF/nvidia/lib64/ cp -rd /usr/lib/x86_64-linux-gnu/libvdpau_nvidia* /var/IEF/nvidia/lib64/ cp -rd /usr/lib/x86_64-linux-gnu/vdpau /var/IEF/nvidia/lib64/ 其中,当前环境内核版本号可以使用uname -r命令查看获取,如下所示,请替换为实际取值。 # uname -r 3.10.0-514.e17.x86_64 执行以下命令修改目录权限。 chmod -R 755 /var/IEF
  • 9、边缘节点存在多个docker0网桥地址 使用了容器引擎图形化界面的容器后,产生了两个docker0网桥地址,导致IEF服务纳管过程中docker0网桥注册失败,进而导致纳管失败,删除多余的docker0网桥后重新纳管可解决问题。 执行以下命令: ip addr show | grep docker0 如果出现多个IP,说明存在多个docker0网桥,请保留172开头的IP,删除多余的docker0网桥地址。
  • 13、边缘节点 域名 解析异常 请确保您的边缘节点可以解析以下域名: ief2-placement.cn-north-4.myhuaweicloud.com(依据不同的区域,域名不同,例如“华东-上海一”为ief-placement.cn-east-3.myhuaweicloud.com,可以通过cat /opt/IEF/Cert/user_config来查找对应的域名) ief2-edgeaccess.cn-north-4.myhuaweicloud.com(依据不同的区域、不同的服务实例,域名不同,请参考专业版服务实例域名或铂金版服务实例域名获取) 确认命令: ping ief2-edgeaccess.cn-north-4.myhuaweicloud.com ping ief2-placement.cn-north-4.myhuaweicloud.com 如果域名无法解析请配置合适的域名解析服务器,建议配置“114.114.114.114”。
  • 14、同一个证书重复在多个边缘节点使用 同一个证书重复在多台机器纳管(同一套证书在不同的边缘节点上注册,且有一台边缘节点处于正常运行状态)。 在IEF界面注册的边缘节点和实际的边缘节点一一对应,请避免只在IEF界面创建一个边缘节点,下载安装包和证书后,重复在多个边缘节点上纳管时使用。 执行如下命令查看是否重复使用证书: cat /var/IEF/sys/log/edge_core.log | grep websocket 若提示node_id已被占用,说明重复使用证书。如下图所示。
  • 11、8883端口被防火墙关闭 检查边缘节点防火墙状态。 systemctl status firewalld firewall-cmd --state 回显中,not running表示关闭,running表示开启。 如果防火墙开启,您需要打开8883端口,或关闭防火墙。 打开8883端口。 firewall-cmd --add-port=8883/tcp --permanent systemctl restart firewalld 关闭防火墙。 systemctl disable firewalld systemctl stop firewalld
  • 15、同一边缘节点多次进行纳管 之前纳管后未正确执行卸载操作(边缘节点以前纳管过,在IEF界面删除边缘节点后,未在边缘节点上卸载) 执行以下命令确认节点上以下组件是否处于运行状态: systemctl status edgecore systemctl status edgemonitor systemctl status edgelogger 如果边缘节点纳管失败,但执行以上命令发现组件仍然处于运行状态,说明之前纳管的组件未正常卸载,请执行以下命令卸载。 cd /opt/edge-installer; sudo ./installer -op=uninstall 存在以下错误情况: 重新纳管边缘节点时,直接将原来的节点的“/opt”目录变为“/opt_old”目录,新建“/opt”目录,后按照IEF提供的指导进行纳管。纳管失败后,执行卸载操作,提示卸载成功,但实际上执行以上命令发现对应组件仍然处于运行状态。这是因为在执行以上卸载操作时,卸载的不是“/opt_old”中安装的IEF组件。如遇该种情况,请先将“/opt”目录恢复,执行卸载操作后再重新开始纳管。请尽量避免该类操作。 卸载完清理残留文件,执行以下命令删除之前纳管的组件、生成的日志和下载的配置文件。 图2 /opt路径下文件 删除红框所示之前纳管的组件:rm -rf /opt/edge-installer、rm -rf /opt/IEF 、rm -rf /opt/IEF_firmware 、rm -rf /opt/IEFpack 、rm -rf /opt/material 删除日志:rm -rf /var/IEF 删除配置文件:rm -rf edge-installer_1.0.10_x86_64.tar.gz ief-node.tar.gz 之前纳管的组件卸载不干净 如果您确认卸载完成,但纳管仍然失败,请重启边缘节点后重试纳管。
  • 12、边缘节点无法连接IEF 执行如下命令,确认边缘节点是否能连接IEF。 curl -i -k -v https://ief2-edgeaccess.cn-north-4.myhuaweicloud.com:443/ 其中,ief2-edgeaccess.cn-north-4.myhuaweicloud.com为服务实例的edgeaccess域名,不同区域地址不同,请参考专业版服务实例域名或铂金版服务实例域名获取。 如果一直没有回显,则说明边缘节点与IEF网络不通,请确保边缘节点能连接IEF。
  • 4、获取边缘节点操作系统失败 查看安装输出日志,如下最后一行,os字段如果为空,说明获取操作系统信息失败。 2020-01-11 17:00:46.341 +08:00 DEBUG :0 init logger... 2020-01-11 17:00:46.341 +08:00 INFO config/config.go:45 New file source added for configuration: /opt/edge-installer/conf/config.yaml 2020-01-11 17:00:46.341 +08:00 INFO config/config.go:45 New file source added for configuration: /opt/edge-installer/conf/logging.yaml 2020-01-11 17:00:46.351 +08:00 INFO pkg/installer.go:24 start to install 2020-01-11 17:00:46.386 +08:00 INFO placementclient/placementclient.go:61 http_proxy:ProxyNotSet, https_proxy:ProxyNotSet 2020-01-11 17:00:46.437 +08:00 INFO httpclient/httpsclient.go:182 https_proxy: 2020-01-11 17:00:46.479 +08:00 INFO util/util.go:446 system cert file[/opt/IEF/Cert/system/sys_private_cert_crypto.crt] and system key file[/opt/IEF/Cert /system/sys_private_cert_crypto.key] have been inited 2020-01-11 17:00:46.479 +08:00 INFO pkg/installer.go:46 ------------------install--------------- 2020-01-11 17:00:46.479 +08:00 INFO deploy/bootstrap.go:48 install precheck success. 2020-01-11 17:00:46.479 +08:00 INFO deploy/bootstrap.go:54 install preprocess start 2020-01-11 17:00:46.479 +08:00 INFO deploy/deploy.go:39 install preprocess start 2020-01-11 17:00:46.501 +08:00 INFO util/util.go:192 get arch success 2020-01-11 17:00:46.502 +08:00 INFO util/util.go:216 os type is:"euleros" 2020-01-11 17:00:46.502 +08:00 INFO util/util.go:432 installer version [1.0.6] 2020-01-11 17:00:46.516 +08:00 INFO placementclient/placementclient.go:113 body : {"arch":"x86_64","installer_version":"1.0.6","os":"euleros"}
  • 8、容器引擎未安装或未启动 执行以下命令确认容器引擎是否启动。 systemctl status docker 如果没有容器引擎的信息,说明容器引擎未安装,请参考表2中的要求安装容器引擎。 如果容器引擎未启动,执行以下命令尝试启动容器引擎。 systemctl restart docker 再次查看容器引擎状态。 如果容器引擎启动正常(状态为active),请重新纳管边缘节点。 如果容器引擎无法正常启动,请优先恢复容器引擎,或者重新安装容器引擎。
  • 问题排查 边缘节点纳管失败的原因众多,大部分是因为边缘节点不满足纳管要求或网络不通导致的,请根据如下原因排查。 图1 排查思路 您可以使用edgectl检查边缘节点是否满足纳管要求,检查“/opt/edge-installer”目录下是否存在edgectl文件。 如果存在,则无需下载。 如果不存在,请登录IEF管理控制台,在“总览”页面右侧的“资源下载”中下载对应版本工具,例如“edgectl_x.x.x_x_x86_64.tar.gz”,并解压安装包到“/opt/edge-installer”目录下。 执行如下命令检查边缘节点是否满足纳管要求。 chmod +x /opt/edge-installer/edgectl /opt/edge-installer/edgectl diagnose installation 如果边缘节点不满足要求,则返回如下信息。您可以根据错误码定位解决对应问题,详细信息请参见错误码总览。 Failed to get Docker version. ERROR6102: Make sure that Docker is running. For more information, see IEF documentation. +-------------------------------+ | Installation diagnose failed. | +-------------------------------+ 如果边缘节点满足要求,则返回如下信息。此时您可以根据表1手动排查故障。 +---------------------------------+ | Installation diagnose succeed. | +---------------------------------+ 表1 排查思路 可能原因 处理措施 边缘节点不满足纳管要求 1、边缘节点不满足纳管要求 2、操作系统不支持 3、操作系统内核版本过低,部分命令不存在而导致边缘节点安装失败 4、获取边缘节点操作系统失败 5、AI加速卡类型的边缘节点未安装NPU驱动 6、GPU类型边缘节点未安装GPU驱动 7、目录磁盘满导致安装失败 Docker相关问题 8、容器引擎未安装或未启动 9、边缘节点存在多个docker0网桥地址 网络相关问题 10、8883端口被占用 11、8883端口被防火墙关闭 12、边缘节点无法连接IEF 13、边缘节点域名解析异常 其他问题 14、同一个证书重复在多个边缘节点使用 15、同一边缘节点多次进行纳管 16、纳管边缘节点的命令没有在对应目录下执行
  • 3、操作系统内核版本过低,部分命令不存在而导致边缘节点安装失败 首先,请参照表2中对边缘节点的要求,查看您的操作系统及内核版本是否符合要求。 执行以下命令确认是否存在操作系统内核版本过低情况: sh /opt/edge-installer/conf/script/parse_user_config.sh node_id 其中,node_id为边缘节点ID。 如果命令报错,则说明操作系统内核版本过低,请升级您的内核版本或重装新版操作系统后再重新纳管边缘节点。
  • 配置边缘节点环境 以具备sudo权限的用户登录边缘节点。 GPU驱动配置。 如果边缘节点使用GPU,您需要安装并配置GPU驱动,详细方法请参见安装并配置GPU驱动。 NPU驱动配置。 如果边缘节点使用昇腾AI加速处理器,请确保已安装对应驱动。 在边缘节点上安装Docker并检查Docker状态。 Docker版本必须高于17.06,推荐使用18.06.3版本。请勿使用18.09.0版本Docker,该版本存在严重bug,如果已使用此版本,请尽快升级。 Docker安装完成后,可以执行docker -v命令检查Docker是否安装正常,如果回显如下则说明安装正常。 # docker -v Docker version 19.03.12, build 48a66213fee 配置边缘节点防火墙规则。 检查边缘节点防火墙状态。 systemctl status firewalld firewall-cmd --state 回显中,not running表示关闭,running表示开启。 如果防火墙开启,您需要打开8883端口,或关闭防火墙。 打开8883端口。 firewall-cmd --add-port=8883/tcp --permanent systemctl restart firewalld 关闭防火墙。 systemctl disable firewalld systemctl stop firewalld
  • 安全提示 为提升主机安全性,建议您对边缘节点进行操作系统加固,可参考: 设置所有OS系统密码(包括管理员和普通用户)、数据库账号密码、应用(WEB)系统管理账号密码为强密码,密码12位以上。强密码设置请参见账户密码最佳实践。 应用程序不以管理员权限账号运行,应用程序(如Web)不使用数据库管理员权限账号与数据库交互。设置安全组,仅向公网开放必要端口,业务WEB控制台端口、局域网内部通信端口避免暴露在公网。关闭高危端口(如SSH端口),或采取限制允许访问端口的源IP、使用VPN/ 堡垒机 建立的运维通道等措施消减风险。 业务数据定期异地备份,避免黑客入侵主机造成数据丢失。 定期检测系统和软件中的安全漏洞,及时更新系统安全补丁,将软件版本升级到官方最新版本。 建议从官方渠道下载安装软件,对非官方渠道下载的软件,建议使用杀毒软件扫描后再运行。 如果使用的是华为云 E CS ,可参考: 将主机登录方式设置为密钥登录,密钥登录设置请参见主机密码被暴力破解的解决方案。 使用华为云官方提供的管理检测与响应服务进行全面的安全体检或使用 企业主机安全 服务深度防御。
  • 约束与限制 同一节点上的NPU,只支持同一种切分规格。 暂不支持已纳管的节点,通过升级NPU插件到2.1.0版本的方式支持虚拟化切分。用户需要将边缘节点进行卸载重装,手动切分NPU后,再纳管至IEF。 NPU驱动需大于22.0版本,进入驱动所在路径(如“/usr/local/Ascend/driver”),执行cat version.info命令查看。 选择共享模式的情况下,需要在NPU卡上设置所有芯片的容器共享模式。 D310P共享模式必须使用完整的卡,不支持虚拟化切分。
  • 约束与限制 同一节点上的NPU,只支持同一种切分规格。 暂不支持已纳管的节点,通过升级NPU插件到2.1.0版本的方式支持虚拟化切分。用户需要将边缘节点进行卸载重装,手动切分NPU后,再纳管至IEF。 NPU驱动需大于22.0版本,进入驱动所在路径(如“/usr/local/Ascend/driver”),执行cat version.info命令查看。 选择共享模式的情况下,需要在NPU卡上设置所有芯片的容器共享模式。 D310P共享模式必须使用完整的卡,不支持虚拟化切分。 健康芯片数量为物理芯片数,如节点使用了切分或者共享模式,则展示的是切分后或者共享后的芯片数目。