检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RoCE网络问题 dtest或rping打流测试网络双向不通问题 问题现象: dtest/rping打流测试网络双向不通问题:A机器作为Server端,B机器作为Client端,dtest/rping测试RoCE网络异常;调换A、B机器角色,B机器作为Server端,A机器作为C
提供镜像(ROCE)的全生命周期管理能力,具有便捷、安全、灵活、统一的优势。 华为 1 以华为云管理控制台显示为准。 仿真软件STAR-CCM+安装在SFS Turbo中,其他软件安装在弹性云服务器中。 父主题: 基于STAR-CCM+部署HPC集群
供一站式可扩展的高性能计算,同时集成基础服务、业务软件等,实现一键式开通部署等功能,支持常用作业调度软件,例如slurm、sge及华为多瑙(Huawei commercial HPC Donau Scheduler)调度器的自动化部署,使用HPC-S²控制台可以方便的对集群、节点以及共享存储进行查看以及管理操作。
STAR-CCM+部署HPC集群流程图 本文档介绍如何通过仿真软件STAR-CCM+部署HPC集群,流程如图1所示。 图1 基于STAR-CCM+部署HPC集群流程图 父主题: 基于STAR-CCM+部署HPC集群
LAMMPS, GROMACS。同时HPC常用的调度软件也对断点续算有集成支持,如PBS、Slurm与LSF等。 本节以LAMMPS为例,介绍如何在HPC进行断点续算。 步骤1 安装FFTW 依次执行以下命令,安装FFTW软件。 yum install gcc-gfortran gcc-c++
已配置弹性云服务器免密登录。 操作步骤 获取软件包。 获取IBM Spectrum MPI软件包。 下载地址:https://www-01.ibm.com/marketing/iwm/iwm/web/preLogin.do?source=swerpsysz-lsf-3 获取的软件包一般为两个,包括li
已配置BMS集群间互相免密登录。 操作步骤 安装Spectrum MPI。 获取IBM Spectrum MPI软件包,需要进行注册。 获取的IBM Spectrum MPI软件包有两个,包括license和软件两部分: ibm_smpi_lic_s-10.1Eval-rh7_Aug11.x86_64
挂载共享目录 安装软件 yum install nfs-utils 挂载SFS Turbo 将SFS Turbo挂载到/opt/Siemens目录 mkdir /opt/Siemens # 在/etc/fstab中添加开启自动挂载 echo "192.168.0.15:/ /opt/Siemens
可以利用公有云的跨地域能力,共享计算资源,海量数据,并能实现云端大数据分析。 优化性能 性能比普通云服务器大幅提升。 通过虚拟化优化(SR-IOV、PCI直通)等,各类测试报告显示:大规模云化HPC性能损耗不大。 约束与限制 MPI和通讯库的版本需要提前适配RoCE,请联系技术支持进行操作,建议使用推荐版本运行STAR-CCM+。
通讯录安装 Udapl安装和测试 Udapl安装 cd /root wget https://linux.mellanox.com/public/repo/mlnx_ofed/4.1-1.0.2.0/SRPMS/dapl-2.1.10mlnx-OFED.3.4.2.1.0.41102
TMOUT=0 执行以下命令,验证参加测试的弹性云服务器之间是否可以免密码互相登录。 $ ssh 用户名@SERVER_IP 执行以下命令,关闭弹性云服务器的防火墙。 # iptables -F # service firewalld stop 执行以下命令,给参与测试的弹性云服务器配置主机名。
3-x86_64.tbz”。 下载地址:https://developer.nvidia.com/networking/hpc-x 将下载的软件包拷贝到BMS内(建议在“/home/rhel”目录下)。 执行以下命令,解压HPC-X工具套件,并修改HPC-X工具套件目录。 # tar
t关联,DHCP Server根据该标识来区分客户端分配IP地址。 HPC解决方案当前采用的是DHCP方式的IPoIB方案,实现IP地址自动化发放和配置。 IPoIB的约束和限制 支持管理一个IB网卡。 继承BMS、H2型、HL1型、HI3型云服务器对IB网卡的使用约束与限制,使
免密登录BMS 系统回显结果如图1所示,可以无密钥登录本节点,表示权限配置成功。 依次登录集群中其他BMS,重复执行步骤1~5。 执行以下命令,验证参加测试的BMS之间是否可以免密码互相登录。 $ ssh 用户名@SERVER_IP 父主题: 裸金属服务器场景典型应用
华为云SFS Turbo提供按需扩展的高性能文件存储,并针对HPC有优化,建议直接使用华为云SFS Turbo存放算例文件。 HPC仿真软件STAR-CCM+需要每个节点都安装,比较麻烦,可以将STAR-CCM+直接安装在NAS存储中,每个节点直接将NAS挂载到本地盘中,简化安装,使用更加方便。
选择“镜像”。 公共镜像(推荐) 常见的标准操作系统镜像,所有用户可见,包括操作系统以及预装的公共应用。请根据您的实际情况自助配置应用环境或相关软件。 私有镜像 用户基于弹性云服务器创建的个人镜像,仅用户自己可见。包含操作系统、预装的公共应用以及用户的私有应用。选择私有镜像创建弹性云服
com/products/infiniband-drivers/linux/mlnx_ofed/ 图2 IB驱动的下载页面 执行以下命令,安装软件包。 # yum install tk tcl # tar -xvf MLNX_OFED_LINUX-4.3-1.0.1.0-rhel7.3-x86_64
$ ssh localhost $ ssh hostname1 依次登录集群中其他ECS,重复执行步骤1~4。 执行以下命令,验证参加测试的ECS之间是否可以免密码互相登录。 假设集群中有2个弹性云服务器,另一个云服务器的主机名为hostname2,则命令行为: $ ssh 用户名@SERVER_IP
可以利用公有云的跨地域能力,共享计算资源,海量数据,并能实现云端大数据分析。 优化性能 性能比普通云服务器提高30%。 通过虚拟化优化(SR-IOV、PCI直通)等,各类测试报告显示:大规模云化HPC性能损耗不大。 HPC与云服务的关系 表1 所需云服务 云服务 作用 弹性云服务器(ECS) 用于在公有云平台上创建高性能计算服务器。
STAR-CCM+启动时,报错“udapl version check failed” 解决方案: 1.请参考通信库安装章节的Udapl安装和测试中在/etc/dat.conf首行加入相应配置,需注意加在首行,放在末尾会出现提示“udapl version check failed”。