检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在HPC集群上运行IB驱动自带的OpenMPI 操作场景 该任务指导用户在已配置好的弹性云服务器上,运行IB驱动自带的MPI应用(3.0.0rc6版本)。 前提条件 已成功创建带IB网卡的弹性云服务器,并绑定了弹性IP进行登录。 已使用私有镜像创建多个弹性云服务器。 操作步骤 使
操作场景 集群创建的命令下发之后,如需查看集群的创建进度,可进入一站式HPC服务提供的“进度”页查看当前集群创建的具体进展和详细信息。 操作步骤 登录HPC-S²控制台。 单击左侧的“集群管理”。 在“集群管理”页面选择要查看的集群,单击操作列的“进度”进入查看。 在集群的进度详情页面
为防止资源滥用,平台限定了各服务资源的配额,对用户的资源数量和容量做了限制。如您最多可以创建多少台弹性云服务器、多少块云硬盘。 如果当前资源配额限制无法满足使用需要,您可以申请扩大配额。 怎样查看我的配额? 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 在页面右上角,选择“资源 > 我的配额”。
nd、iWARP。RDMA的实现方式主要分为InfiniBand和Ethernet两种传输网络。而在以太网上,又可以根据与以太网融合的协议栈的差异分为iWARP和RoCE(包括RoCEv1和RoCEv2)。其中,InfiniBand是最早实现RDMA的网络协议,被广泛应用到高性能计算中。
hiroce gids:查下设备名和index。 UCX_NET_DEVICES: hiroce gids查到的有ip值一行的ib_dev的值: port的值。 UCX_IB_GID_INDEX:hiroce gids查到的有ip值一行的idx的值。 2.若以上方法无法解决,请联系技术支持进行处理。
未加入集群或节点不存在,那么集群将无法正常部署/创建。 处理方法 可删除集群重新创建,选择其中创建成功的计算节点手动绑定EIP,然后和其他计算节点重新创建集群。 删除状态异常的节点,从而使集群状态恢复正常。 父主题: 常见问题
选择“当前区域”和“可用区”。 集群扩容时,当前区域不可选,默认为集群初始创建时所在区域。 集群扩容时,可选择不同于原有集群的可用区。 新增节点的规格配置。 规格:公有云提供了多种类型的弹性云服务器供您选择,单击下拉框进行选择; 系统盘:根据所需要的选择磁盘类型和大小; 网络配置。
管理共享存储 操作场景 HPC解决方案服务的管理控制台提供了弹性文件服务SFS的自定义挂载和卸载的功能。集群创建完成后,您可以在共享存储页面为集群挂载/卸载弹性文件服务。通过弹性文件服务SFS为集群提供共享存储的功能。 当集群为运行状态时,您可以选择挂载/卸载弹性文件服务。当集群
配置节点互信 配置节点互信免密登录 STAR-CCM+集群运行时候需要跨节点运行,推荐使用互信免密登录。 # 生成ssh公钥和私钥 ssh-key-gen # 拷贝公钥到指定主机的~/.ssh/authorized_key文件中 ssh-copy-id root@目标主机IP 例如:ssh-copy-id
在弹性云服务器列表页,选择待制作镜像的云服务器,确认云服务器为“关机”状态。 如果云服务器为“开机”状态,您可通过单击“操作”列下的“更多 > 关机”将云服务器关机。 单击“操作”列下的“更多 > 制作镜像”,将弹性云服务器制作为私有镜像。 根据界面提示,填写镜像的基本信息。 源:云服务器 弹性云服务器:保持系统默认值
SFS Turbo提供按需扩展的高性能文件存储(NAS),可为云上多个弹性云服务器(Elastic Cloud Server,ECS),容器(CCE&CCI),裸金属服务器(BMS)提供共享访问,能够弹性伸缩至320TB规模,具备高可用性和持久性,为海量的小文件、低延迟高IOPS型应用提供有力支持。
单击“创建弹性云服务器”,开始创建应用集群。 按照界面提示,填写弹性云服务器的参数配置,详细操作请参见创建支持IB网卡的弹性云服务器。其中, 规格:需与转化的私有镜像的云服务器规格保持一致。 镜像:选择“私有镜像”,然后选择制作私有镜像中制作的私有镜像。 虚拟私有云:集群中的所有弹性云服务器需在同一VPC、同一子网内。
在HPC集群上运行MPI应用(鲲鹏BMS场景) 该任务指导以CentOS 7.6的操作系统为例在集群上运行MPI应用。 安装和使用IB驱动自带的Open MPI 安装和使用社区OpenMPI 安装和使用MPICH 父主题: 裸金属服务器场景典型应用
集群创建完成后,如需查看集群的详细信息,可进入一站式HPC服务提供的“集群详情”页,查看例如当前集群的ID、状态、所在区域、虚拟私有云、安全组、节点信息以及共享存储以及集群的关系图等信息。 操作步骤 登录HPC-S²控制台。 单击左侧的“集群管理”。 在“集群管理”页面选择要查看的集群,单击集群名称查看集群详情页。
操作场景 按需付费类型的节点资源暂不使用或出现故障时可停止节点,使资源不再计费。 包周期资源关机后仍继续扣费,需手动退订后可停止扣费。 只有状态为“运行中”的节点可执行停止操作。 操作步骤 登录HPC-S²控制台。 单击左侧的“节点管理”。 在“节点管理”页面集群的下拉框切换到要进行节点操作的集群。
计算密集型、海量数据处理等业务的计算需求,如科学研究、气象预报、计算模拟、军事研究、CAD/CAE、生物制药、基因测序、图像处理等,缩短需要的大量计算时间,提高计算精度。 方案架构 方案优势 降低TCO 可以按需租用,成本低,降低中小客户使用HPC的门槛。 提高效率 按需发放,快
当集群中某节点出现异常,可以使用节点重启的功能对该节点进行重启操作尝试恢复。 只有状态为“运行中”的节点可进行重启操作。 操作步骤 登录HPC-S²控制台。 单击左侧的“节点管理”。 在“节点管理”页面集群的下拉框切换到要进行节点操作的集群。 选择要进行停止操作的节点,单击操作中“更多 > 重启”。
节点关机后,如需再次重启恢复使用,可重新启动节点。 状态为“停止”的节点可进行启动操作。 操作步骤 登录HPC-S²控制台。 单击左侧的“节点管理”。 在“节点管理”页面集群的下拉框切换到要进行节点操作的集群。 选择要启动的节点,单击操作中“更多 > 启动”。 单击“确定”。 提交成功
启动集群 操作场景 停止状态的集群,如需再次开启集群执行作业,可将集群重新启动。 只有状态为“停止”的集群可进行启动操作。 操作步骤 登录HPC-S²控制台。 单击左侧的“集群管理”。 在“集群管理”页面选择要启动的集群,单击后方操作列“更多 > 启动”。 单击“确定”。 在集群
执行以下命令,防止系统超时退出。 # TMOUT=0 执行以下命令,添加集群中所有主机的私网IP地址和主机名。 # vi /etc/hosts 添加的内容为集群中所有ECS的私网IP地址和主机名,例如: 192.168.0.1 ecs-ff-0001 192.168.0.2 ecs-ff-0002