华为云用户手册

  • AI应用管理支持审计的关键操作列表 表4 AI应用管理支持审计的关键操作列表 操作名称 资源类型 事件名称 创建AI应用 model addModel 更新AI应用 model updateModel 删除AI应用 model deleteModel 添加转换任务 convert addConvert 更新转换任务 convert updateConvert 删除转换任务 convert deleteConvert
  • 训练作业支持审计的关键操作列表 表3 训练作业支持审计的关键操作列表 操作名称 资源类型 事件名称 创建训练作业 ModelArtsTrainJob createModelArtsTrainJob 创建训练作业版本 ModelArtsTrainJob createModelArtsTrainVersion 停止训练作业 ModelArtsTrainJob stopModelArtsTrainVersion 更新训练作业描述 ModelArtsTrainJob updateModelArtsTrainDesc 删除训练作业版本 ModelArtsTrainJob deleteModelArtsTrainVersion 删除训练作业 ModelArtsTrainJob deleteModelArtsTrainJob 创建训练作业参数 ModelArtsTrainConfig createModelArtsTrainConfig 更新训练作业参数 ModelArtsTrainConfig updateModelArtsTrainConfig 删除训练作业参数 ModelArtsTrainConfig deleteModelArtsTrainConfig 创建可视化作业 ModelArtsTensorboardJob createModelArtsTensorboardJob 删除可视化作业 ModelArtsTensorboardJob deleteModelArtsTensorboardJob 更新可视化作业描述 ModelArtsTensorboardJob updateModelArtsTensorboardDesc 停止可视化作业 ModelArtsTensorboardJob stopModelArtsTensorboardJob 重启可视化作业 ModelArtsTensorboardJob restartModelArtsgTensorboardJob
  • 服务管理支持审计的关键操作列表 表5 服务管理支持审计的关键操作列表 操作名称 资源类型 事件名称 部署服务 service addService 删除服务 service deleteService 更新服务 service updateService 启停服务 service startOrStopService 启停边缘服务节点 service startOrStopNodesService 添加用户访问密钥 service addAkSk 删除用户访问密钥 service deleteAkSk 创建专属资源池 cluster createCluster 删除专属资源池 cluster deleteCluster 添加专属资源池节点 cluster addClusterNode 删除专属资源池节点 cluster deleteClusterNode 获取专属资源池创建结果 cluster createClusterResult
  • AI Gallery支持审计的关键操作列表 表6 AI Gallery支持审计的关键操作列表 操作名称 资源类型 事件名称 发布资产 ModelArts_Market create_content 修改资产信息 ModelArts_Market modify_content 发布资产新版本 ModelArts_Market add_version 订阅资产 ModelArts_Market subscription_content 收藏资产 ModelArts_Market star_content 取消收藏资产 ModelArts_Market cancel_star_content 点赞资产 ModelArts_Market like_content 取消点赞资产 ModelArts_Market cancel_like_content 发布实践 ModelArts_Market publish_activity 报名实践 ModelArts_Market regist_activity 修改个人资料 ModelArts_Market update_user
  • 开发环境支持审计的关键操作列表 表2 开发环境支持审计的关键操作列表 操作名称 资源类型 事件名称 创建Notebook Notebook createNotebook 删除Notebook Notebook deleteNotebook 打开Notebook Notebook openNotebook 启动Notebook Notebook startNotebook 停止Notebook Notebook stopNotebook 更新Notebook Notebook updateNotebook 删除NotebookApp NotebookApp deleteNotebookApp 切换CodeLab规格 NotebookApp updateNotebookApp
  • 数据管理支持审计的关键操作列表 表1 数据管理支持审计的关键操作列表 操作名称 资源类型 事件名称 创建数据集 dataset createDataset 删除数据集 dataset deleteDataset 更新数据集 dataset updateDataset 发布数据集版本 dataset publishDatasetVersion 删除数据集版本 dataset deleteDatasetVersion 同步数据源 dataset syncDataSource 导出数据集 dataset exportDataFromDataset 创建自动标注任务 dataset createAutoLabelingTask 创建自动分组任务 dataset createAutoGroupingTask 创建自动部署任务 dataset createAutoDeployTask 导入样本到数据集 dataset importSamplesToDataset 创建数据集标签 dataset createLabel 更新数据集标签 dataset updateLabel 删除数据集标签 dataset deleteLabel 删除数据集标签和对应的样本 dataset deleteLabelWithSamples 添加样本 dataset uploadSamples 删除样本 dataset deleteSamples 停止自动标注任务 dataset stopTask 创建团队标注任务 dataset createWorkforceTask 删除团队标注任务 dataset deleteWorkforceTask 启动团队标注验收的任务 dataset startWorkforceSamplingTask 通过/驳回/取消验收任务 dataset updateWorkforceSamplingTask 提交验收任务的样本评审意见 dataset acceptSamples 给样本添加标签 dataset updateSamples 发送邮件给团队标注任务的成员 dataset sendEmails 接口人启动团队标注任务 dataset startWorkforceTask 更新团队标注任务 dataset updateWorkforceTask 给团队标注样本添加标签 dataset updateWorkforceTaskSamples 团队标注审核 dataset reviewSamples 创建标注成员 workforce createWorker 更新标注成员 workforce updateWorker 删除标注成员 workforce deleteWorker 批量删除标注成员 workforce batchDeleteWorker 创建标注团队 workforce createWorkforce 更新标注团队 workforce updateWorkforce 删除标注团队 workforce deleteWorkforce 自动创建 IAM 委托 IAM createAgency 标注成员登录labelConsole标注平台 labelConsoleWorker workerLoginLabelConsole 标注成员登出labelConsole标注平台 labelConsoleWorker workerLogOutLabelConsole 标注成员修改labelConsole平台密码 labelConsoleWorker workerChangePassword 标注成员忘记labelConsole平台密码 labelConsoleWorker workerForgetPassword 标注成员通过url重置labelConsole标注密码 labelConsoleWorker workerResetPassword
  • 打通VPC(可选) 通过打通VPC,可以方便用户跨VPC使用资源,提升资源利用率。 在“网络”页签,单击网络列表中某个网络操作列的“打通VPC”。 图4 打通VPC 在打通VPC弹框中,打开“打通VPC”开关,在下拉框中选择可用的VPC和子网。 需要打通的对端网络不能和当前网段重叠。 图5 打通VPC参数选择 如果没有VPC可选,可以单击右侧的“创建虚拟私有云”,跳转到网络控制台,申请创建虚拟私有云。 如果没有子网可选,可以单击右侧的“创建子网”,跳转到网络控制台,创建可用的子网。 支持1个VPC下多个子网的打通,若VPC下有多个子网,会显示“+”,您可单击“+”即可添加子网(上限10个)。 若需要使用打通VPC的方式实现专属资源池访问公网,由于要访问的公网地址不确定,一般是建议用户在VPC中创建SNAT。此场景下,在打通VPC后,专属资源池中作业访问公网地址,默认不能转发到用户VPC的SNAT,需要提交工单联系技术支持在专属资源池VPC的路由中添加指向对等连接的缺省路由。当您开启默认路由后,在打通VPC时,会将ModelArts网络0.0.0.0/0路由作为默认路由,此时无需提交工单添加缺省路由即可完成网络配置。
  • ModelArts网络与VPC介绍 ModelArts网络是承载ModelArts资源池节点的网络连接,基于华为云的VPC进行封装,对用户仅提供网络名称以及CIDR网段的选择项,为了防止在打通VPC的时候有网段的冲突,因此提供了多个CIDR网段的选项,用户可以根据自己的实际情况进行选择。 虚拟私有云VPC 是一套为实例构建的逻辑隔离的、由用户自主配置和管理的虚拟网络环境。为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境,提升用户资源的安全性,简化用户的网络部署。
  • 场景介绍 当专属资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。 驱动升级有两种升级方式:安全升级、强制升级。 安全升级:不影响正在运行的业务,开始升级后会先将节点进行隔离(不能再下发新的作业),待节点上的存量作业运行完成后再进行升级,因需要等待作业完成,故升级周期可能比较长。 强制升级:忽略资源池中正在运行的作业,直接进行驱动升级,可能会导致运行中作业失败,需谨慎选择。
  • 场景介绍 ModelArts含有许多“作业”类型(作业为统称,并非单指训练作业),其中有一部分是可以运行在专属资源池上的,包括“训练”、“推理”服务及“Notebook”开发环境。 专属资源池提供了动态设置作业类型的功能,您可以在创建资源池时、创建完成后,对资源池支持的作业类型进行编辑(新增或减少)。当前支持的“作业类型”有“训练作业”、“推理服务”和“开发环境”,用户可按需自行选择。 设置某一作业类型后,即可在此专属资源池中下发此种类型的作业,没有设置的作业类型不能下发。 为了支持不同的作业类型,后台需要在专属资源池上进行不同的初始化操作,例如安装插件、设置网络环境等。其中部分操作需要占据资源池的资源,导致用户实际可用资源减少。因此建议用户按需设置,避免不必要的资源浪费。
  • 场景介绍 当专属资源池创建完成,使用一段时间后,由于用户AI开发业务的变化,对于资源池资源量的需求可能会产生变化,面对这种场景,ModelArts专属资源池提供了扩缩容功能,用户可以根据自己的需求动态调整。 使用扩容功能时,可以增加资源池已有规格的节点数量。 使用缩容功能时,可以减少资源池已有规格的节点数量。 缩容操作可能影响到正在运行的业务,建议用户在业务空窗期进行缩容,或进入资源池详情页面,在指定空闲的节点上进行删除来实现缩容。
  • 查看资源池事件 在资源池详情页,切换到“事件”页签。您可以查看资源从创建到添加节点的各个阶段的事件。产生事件的原因主要有“资源池状态变化”和“资源节点状态变化”。 在事件列表中,可单击“事件类型”列的筛选查看。 当资源池开始创建或者出现异常时,因资源池状态变化,会将此变化信息记录到事件中。 当节点的可用、异常、创建中、删除中的数量发生变化时,因资源池节点状态变化,会将此变化信息记录到事件中。 图2 查看资源池事件
  • 常见问题 创建专属资源池时,能选到规格但最终创建时发生报错,提示无可用资源? 由于专属资源的可选规格是动态监测的,因此在极少数情况下会出现,规格在购买界面可以被选择,但由于没有及时支付和创建资源池,导致该规格售罄创建失败。 建议您在创建界面更换规格重新创建资源池。 为什么无法使用资源池节点上的全部CPU资源? 由于资源池节点上会安装系统、插件等内容,因此不能完全使用所有资源。例如:资源池节点是8U,节点分配给系统组件部分CPU,可用的资源会小于8U。 建议您在启动任务前,在该资源池的详情页中,单击“节点”页签,查看实际可用的CPU资源。
  • 专属资源池有什么能力? 新版专属资源池是一个全面的技术和产品的改进,主要能力提升如下: 专属资源池类型归一:不再区分训练、推理专属资源池。如果业务允许,您可以在一个专属资源池中同时跑训练和推理的Workload。同时,也可以通过“设置作业类型”来开启/关闭专属资源池对特定作业类型的支持。 自助专属池网络打通:可以在ModelArts管理控制台自行创建和管理专属资源池所属的网络。若需要在专属资源池的任务中访问自己VPC上的资源,可通过“打通VPC”来实现。 更加完善的集群信息:全新改版的专属资源池详情页面中,提供了作业、节点、资源监控等更加全面的集群信息,可帮助您及时了解集群现状,更好的规划使用资源。 自助管理集群GPU/NPU驱动:每个用户对集群的驱动要求不同,在新版专属资源池列表页中,可自行选择加速卡驱动,并根据业务需要进行立即变更或平滑升级。
  • 专属资源池和公共资源池的能力差异 专属资源池为用户提供独立的计算集群、网络,不同用户间的专属资源池物理隔离,公共资源池仅提供逻辑隔离,专属资源池的隔离性、安全性要高于公共资源池。 专属资源池用户资源独享,在资源充足的情况下,作业是不会排队的;而公共资源池使用共享资源,在任何时候都有可能排队。 专属资源池支持打通用户的网络,在该专属资源池中运行的作业可以访问打通网络中的存储和资源。例如,在创建训练作业时选择打通了网络的专属资源池,训练作业创建成功后,支持在训练时访问SFS中的数据。 专属资源池支持自定义物理节点运行环境相关的能力,例如GPU/Ascend驱动的自助升级,而公共资源池暂不支持。
  • ModelArts资源池说明 在使用ModelArts进行AI开发时,您可以选择使用如下两种资源池: 专属资源池:专属资源池不与其他用户共享,资源更可控。在使用专属资源池之前,您需要先创建一个专属资源池,然后在AI开发过程中选择此专属资源池。其中专属资源池分为弹性集群和弹性裸金属。 弹性集群:分为Standard弹性集群与Lite弹性集群。其中: Standard弹性集群提供独享的计算资源,使用Modelarts开发平台的训练作业、部署模型以及开发环境时,通过Standard弹性集群的计算资源进行实例下发。 Lite弹性集群面向k8s资源型用户,提供托管式k8s集群,并预装主流AI开发插件以及自研的加速插件,以云原生方式直接向用户提供AI Native的资源、任务等能力,用户可以直接操作资源池中的节点和k8s集群。请参见用户指南(Lite Cluster)。 弹性裸金属:弹性裸金属提供不同型号的xPU裸金属服务器,您可以通过弹性公网IP进行访问,在给定的操作系统镜像上可以自行安装GPU&NPU相关的驱动和其他软件,使用SFS或OBS进行数据存储和读取相关的操作,满足算法工程师进行日常训练的需要。请参见用户指南(Lite Server)。 公共资源池:公共资源池提供公共的大规模计算集群,根据用户作业参数分配使用,资源按作业隔离。 用户下发训练作业、部署模型、使用开发环境实例等,均可以使用ModelArts提供的公共资源池完成,按照使用量计费,方便快捷。
  • 新版专属资源池有什么能力? 新版专属资源池是一个全面的技术和产品的改进,主要能力提升如下: 专属资源池类型归一:不再区分训练、推理专属资源池。如果业务允许,您可以在一个专属资源池中同时跑训练和推理的Workload。同时,也可以通过“设置作业类型”来开启/关闭专属资源池对特定作业类型的支持。 自助专属池网络打通:可以在ModelArts管理控制台自行创建和管理专属资源池所属的网络。若需要在专属资源池的任务中访问自己VPC上的资源,可通过“打通VPC”来实现。 更加完善的集群信息:全新改版的专属资源池详情页面中,提供了作业、节点、资源监控等更加全面的集群信息,可帮助您及时了解集群现状,更好的规划使用资源。 自助管理集群GPU/NPU驱动:每个用户对集群的驱动要求不同,在新版专属资源池详情页中,可自行选择加速卡驱动,并根据业务需要进行立即变更或平滑升级。 更细粒度的资源划分(Coming soon):您可以将已创建的专属资源池划分为多个“小池子”,并给每个小池子以不同的配额和使用权限,做到资源灵活且精细的分配和管理。 更多新的能力和体验,将在后续的版本中不断的提供,期待您有一个良好的使用旅程。
  • 专属资源池使用说明 若您是初次使用专属资源池,建议您可从资源池介绍开始,了解ModelArts提供的资源池详细说明。 在对ModelArts的资源池有一定了解后,若您需要创建一个自己的专属资源池,您可参考购买资源池来进行创建。 专属资源池创建成功后,可在查看资源池详情中查看专属资源池的详细信息。 若专属资源池的规格与您的业务不符,可通过扩缩容资源池来调整专属资源池的规格。 专属资源池提供了动态设置作业类型的功能,可参考修改资源池作业类型更新作业类型。 ModelArts提供了自助升级专属资源池GPU/Ascend驱动的能力,可参考资源池驱动升级进行升级。 当不再需要使用专属资源池时,您可参考删除资源池删除专属资源池。 在使用专属资源池时,可能会存在各种异常,可参考资源池异常处理对使用专属资源池时遇到的异常情况进行处理。 ModelArts提供了对网络的管理,同时支持打通VPC功能,具体可参见ModelArts网络。
  • 在新版专属资源池生效前创建的专属资源池,能否继续使用? 若您此前已经创建了专属资源池,这些资源池会保留不变,您在ModelArts管理控制台仍旧能看到原来的专属资源池(即弹性集群)管理入口,但不支持在此继续创建专属资源池。ModelArts支持将现有专属资源池迁移到新的体系下,此变更不需要您做任何额外操作,我们会主动与您联系完成变更。同时,此变更不会对专属资源池上运行的Workload有任何影响。您唯一要关注的是后续需要切换到新的专属资源池(即弹性集群New)中管理,其提供了更加完善且易用的管理功能。而对于AI开发者,其提交训练任务或创建推理服务等,没有任何变化影响。
  • 新版专属资源池和旧版专属资源池差异对比 旧版的开发环境/训练专用和部署上线专用专属资源池相互隔离,不能共用,且两者之间使用体验不同、提供的功能也不同。新版专属资源池将两者统一,用户可以通过设置专属资源池支持的作业类型,让资源池支持开发环境、训练作业、推理服务中的一个或多个,购买一份资源,实现多种用途。 新版专属资源池继承了旧版专属资源池的所有功能,并对专属资源池购买和扩缩容功能进行了大幅的体验优化,用户购买新版专属资源池可以获得更流畅、透明的购买体验。 新版专属资源池相比于旧版专属资源池进行了功能增强,使用新版专属资源池,用户可以享受资源池GPU/Ascend驱动自助升级、查看资源池作业排队详情、多个资源池共享一个网络等一系列新增功能,未来还会有更多新增功能将不断开放。
  • 步骤3:(可选)安装CANN Toolkit 当前ModelArts提供的预置镜像中已安装CANN Toolkit,如果需要替换版本或者使用自己的未预置CANN Toolkit的镜像,可参考如下章节进行安装。 查看容器内是否已安装CANN Toolkit,如果显示有版本号则已安装: cat /usr/local/Ascend/ascend-toolkit/latest/aarch64-linux/ascend_toolkit_install.info 如果未安装或需要升级版本,则需要从官网下载相关软件包,其中社区版可以直接下载(下载地址),商用版是权限受控,仅华为工程师和渠道用户有权限下载(下载链接)。 安装CANN Toolkit,注意替换包名。 chmod 700 *.run ./Ascend-cann-toolkit_6.3.RC2_linux-aarch64.run --full --install-for-all 如果已安装,但需要升级版本,注意替换包名: chmod 700 *.run ./Ascend-cann-toolkit_6.3.RC2_linux-aarch64.run --upgrade --install-for-all
  • 步骤4:(可选)安装MindSpore Lite 当前预置镜像中已安装MindSpore Lite,如果需要替换版本或者使用自己的未预置MindSpore Lite的镜像,可参考如下章节进行安装。 查看容器中是否已安装MS Lite,如果已经显示出mindspore-lite软件信息和版本号,则是已经安装好的: pip show mindspore-lite 如果未安装,则从官网下载包(下载链接),下载whl包和tar.gz包并执行安装,注意替换包名: pip install mindspore_lite-2.1.0-cp37-cp37m-linux_aarch64.whl mkdir -p /usr/local/mindspore-lite tar -zxvf mindspore-lite-2.1.0-linux-aarch64.tar.gz -C /usr/local/mindspore-lite --strip-components 1
  • 步骤7:容器环境保存镜像 配置好环境后可以进行业务代码的开发调试。通常为了避免机器重启后环境丢失,建议将已经配好的环境保存成新的镜像,命令如下: # 查看需要保存为镜像的容器ID docker ps # 保存镜像 docker commit 容器ID 自定义镜像 名:自定义镜像tag # 查看已保存的镜像 docker images # 如果需要将镜像分享给其他人在其他环境使用,可将镜像保存为本地文件,该命令耗时较久,保存完后ls可查看到文件 docker save -o 自定义名称.tar 镜像名:镜像tag # 其他机器上使用时加载文件,加载好后docker images即可查看到该镜像 docker load --input 自定义名称.tar 到此环境配置就结束了,后续可以根据相关的迁移指导书做业务迁移到昇腾的开发调测工作。
  • 步骤6:git操作 git clone和git lfs下载大模型可以参考如下操作。 由于欧拉源上没有git-lfs包,所以需要从压缩包中解压使用,在浏览器中输入如下地址下载git-lfs压缩包并上传到服务器的/home目录下,该目录在容器启动时挂载到容器/home_host目录下,这样在容器中可以直接使用。 https://github.com/git-lfs/git-lfs/releases/download/v3.2.0/git-lfs-linux-arm64-v3.2.0.tar.gz 进入容器,执行安装git lfs命令。 cd /home_host tar -zxvf git-lfs-linux-arm64-v3.2.0.tar.gz cd git-lfs-3.2.0 sh install.sh 设置git配置去掉ssl校验。 git config --global http.sslVerify false git clone代码仓,以diffusers为例(注意替换用户个人开发目录)。 # git clone diffusers源码,-b参数可指定分支,注意替换用户个人开发目录 cd /home_host/用户个人目录 mkdir sd cd sd git clone https://github.com/huggingface/diffusers.git -b v0.11.1-patch git clone huggingface上的模型,以SD模型为例。如果下载时若出现“SSL_ERROR_SYSCALL”报错,多重试几次即可。另外由于网络限制以及文件较大,下载可能很慢需要数个小时,如果重试多次还是失败,建议直接从网站下载大文件后上传到服务器/home目录的个人开发目录中。如果下载时需要跳过大文件,可以设置GIT_LFS_SKIP_SMUDGE=1 git lfs install git clone https://huggingface.co/runwayml/stable-diffusion-v1-5 -b onnx 图5 代码下载成功
  • 步骤5:配置pip源和yum源 配置pip源 使用ModelArts提供的预置镜像中pip源已经直接配置好可用,如果用户使用自己的业务镜像,可参考步骤5:(可选)安装pip进行配置。 配置yum源 执行如下命令配置yum源: # 自动配置yum源 wget http://mirrors.myhuaweicloud.com/repo/mirrors_source.sh && bash mirrors_source.sh # 测试 yum update --allowerasing --skip-broken --nobest
  • 步骤6:RoCE网络测试 安装cann-toolkit。 查看服务器是否已安装CANN Toolkit,如果显示有版本号则已安装: cat /usr/local/Ascend/ascend-toolkit/latest/aarch64-linux/ascend_toolkit_install.info 如果未安装,则需要从官网下载相关软件包,其中社区版可以直接下载(下载地址),商用版是权限受控,仅华为工程师和渠道用户有权限下载(下载链接)。 安装CANN Toolkit,注意替换包名。 chmod 700 *.run ./Ascend-cann-toolkit_6.3.RC2_linux-aarch64.run --full --install-for-all 安装mpich-3.2.1.tar.gz。 单击此处下载,并执行以下命令安装: mkdir -p /home/mpich mv /root/mpich-3.2.1.tar.gz /home/ cd /home/;tar -zxvf mpich-3.2.1.tar.gz cd /home/mpich-3.2.1 ./configure --prefix=/home/mpich --disable-fortran make && make install 设置环境变量和编译hccl算子。 export PATH=/home/mpich/bin:$PATH cd /usr/local/Ascend/ascend-toolkit/latest/tools/hccl_test export LD_LIBRARY_PATH=/home/mpich/lib/:/usr/local/Ascend/ascend-toolkit/latest/lib64:$LD_LIBRARY_PATH make MPI_HOME=/home/mpich ASCEND_DIR=/usr/local/Ascend/ascend-toolkit/latest 算子编译完成后显示内容如下: 图11 算子编译完成 单机all_reduce_test。 进入hccl_test目录: cd /usr/local/Ascend/ascend-toolkit/latest/tools/hccl_test 若是单机单卡,则执行: mpirun -n 1 ./bin/all_reduce_test -b 8 -e 1024M -f 2 -p 8 若是单机多卡,则执行: mpirun -n 8 ./bin/all_reduce_test -b 8 -e 1024M -f 2 -p 8 图12 all_reduce_test 多机ROCE网卡带宽测试。 执行以下命令查看昇腾的RoCE IP: cat /etc/hccn.conf 图13 查看昇腾的RoCE IP RoCE测试。 在Session1:在接收端执行-i卡id。 hccn_tool -i 7 -roce_test reset hccn_tool -i 7 -roce_test ib_send_bw -s 4096000 -n 1000 -tcp 在Session2:在发送端执行-i卡id,后面的ip为上一步接收端卡的ip。 cd /usr/local/Ascend/ascend-toolkit/latest/tools/hccl_test hccn_tool -i 0 -roce_test reset hccn_tool -i 0 -roce_test ib_send_bw -s 4096000 -n 1000 address 192.168.100.18 -tcp RoCE测试结果如图: 图14 RoCE测试结果(接收端) 图15 RoCE测试结果(服务端) 当某网卡已经开始RoCE带宽测试时,再次启动任务会有如下报错: 图16 报错信息 需要执行下述命令后关闭roce_test任务后再启动任务。 hccn_tool -i 7 -roce_test reset 可执行如下命令查看网卡状态。 for i in {0..7};do hccn_tool -i ${i} -link -g;done 可执行如下命令查看单节点内网卡IP连通性。 for i in $(seq 0 7);do hccn_tool -i $i -net_health -g;done
  • 步骤2:磁盘合并挂载 成功购买裸金属服务器后,服务器上可能会有多个未挂载的nvme磁盘。因此在首次配置环境前,需要完成磁盘合并挂载。此操作需要放在最开始完成,避免使用一段时间后再挂载会冲掉用户已存储的内容。 首先通过“lsblk”查看是否有3个7T的磁盘未挂载,如下图所示为未挂载。 图1 磁盘未挂载 若是下图所示,每个盘后已有MOUNTPOINT,则代表已经执行过挂载操作,可跳过此章节,只用直接在/home目录下创建自己的个人开发目录即可。 图2 磁盘已挂载 执行自动化挂载脚本,将“/dev/nvme0n1”挂载在“/home”下供每个开发者创建自己的家目录,另两个合并挂载到“/docker”下供容器使用(如果不单独给“/docker”分配较大空间,当多人共用创建多个容器实例时容易将根目录占满)。 cd /root/tools/ sh create_disk_partitions.sh 配置完成后,执行“df -h”可以看到新挂载的磁盘信息。 图3 查看新挂载的磁盘 磁盘合并挂载后,即可在“/home”下创建自己的工作目录,以自己的名字命名。
  • 步骤4:安装docker环境 先执行“docker -v”检查机器是否已安装docker,若已安装,则可跳过此步骤。 安装docker命令如下: yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 使用docker -v检查是否安装成功: 图8 查看docker版本 配置IP转发,用于容器内的网络访问。执行下述命令查看net.ipv4.ip_forward配置项值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果不为1,进行配置: sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward 查看环境是否已安装并配置Ascend-docker-runtime: docker info |grep Runtime 如果输出的runtime为“ascend”,则代表已安装配置好,可跳过此步骤。 图9 Ascend-docker-runtime查询 若未安装,则单击链接下载社区版Ascend Docker Runtime,该软件包是昇腾提供的docker插件,在docker run时可以自动挂载昇腾driver等路径到容器,无需在启动容器时手工指定--device参数。下载好后将包上传到服务器并进行安装。 chmod 700 *.run ./Ascend-hdk-型号-npu-driver_版本号_linux-aarch64.run --install 关于Ascend Docker Runtime的更多使用指导,请参考Ascend Docker Runtime用户指南。 将新挂载的盘设置为docker容器使用路径。 编辑“/etc/docker/daemon.json”文件内容,如果文件不存在则新建即可。 vim /etc/docker/daemon.json 增加如下两项配置,注意insecure-registries行末尾增加一个逗号,保持json格式正确。其中“data_root”代表docker数据存储路径,“default-shm-size”代表容器启动默认分配的共享内容大小,不配置时默认为64M,可以根据需要改大,避免分布式训练时共享内存不足导致训练失败。 图10 docker配置 保存后,执行如下命令重启docker使配置生效: systemctl daemon-reload && systemctl restart docker
  • 步骤5:(可选)安装pip 执行如下命令检查是否已安装pip且pip源正常访问,如果能正常执行,可跳过此章节: pip install numpy 若物理机上没有安装pip,可执行如下命令安装: python -m ensurepip --upgrade ln -s /usr/bin/pip3 /usr/bin/pip 配置pip源。 mkdir -p ~/.pip vim ~/.pip/pip.conf 在“~/.pip/pip.conf”中写入如下内容: [global] index-url = http://mirrors.myhuaweicloud.com/pypi/web/simple format = columns [install] trusted-host=mirrors.myhuaweicloud.com
  • 步骤1:配置超时参数 SSH登录到机器后,查看机器配置的超时参数: echo $TMOUT 如果该值为300,则代表默认空闲等待5分钟后会断开连接,可以增大该参数延长空闲等待时间(若值已经为0可跳过该步骤)。修改方法如下: vim /etc/profile # 在文件最后修改TMOUT值,由300改为0,0表示不会空闲断开 export TMOUT=0 执行命令使其在当前terminal生效: TMOUT=0
共100000条