检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明: ${dockerfile_image_name}:在step5中,使用Dockerfile创建的新镜像名称。 <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织
<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明: <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:前面步骤中自己创建的组织名称。示例:ma-group <镜像名称>:<版本名称>:定义镜像名称。示例:
Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具,提供多种能力,包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。 约束限制 仅适用于GPU资源监控。 前提条件 裸金属服务器需要安装driver、cuda、fabric-manager软件包。
ServerHpsInfo object 服务器归属超节点信息。 表4 CloudServer 参数 参数类型 描述 id String 服务器资源id。 type String DevServer服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 HPS:超节点服务器 hps_id String
ServerHpsInfo object 服务器归属超节点信息。 表3 CloudServer 参数 参数类型 描述 id String 服务器资源id。 type String DevServer服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 HPS:超节点服务器 hps_id String
ServerHpsInfo object 服务器归属超节点信息。 表3 CloudServer 参数 参数类型 描述 id String 服务器资源id。 type String DevServer服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 HPS:超节点服务器 hps_id String
ServerHpsInfo object 服务器归属超节点信息。 表3 CloudServer 参数 参数类型 描述 id String 服务器资源id。 type String DevServer服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 HPS:超节点服务器 hps_id String
ServerHpsInfo object 服务器归属超节点信息。 表8 CloudServer 参数 参数类型 描述 id String 服务器资源id。 type String DevServer服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 HPS:超节点服务器 hps_id String
ServerHpsInfo object 服务器归属超节点信息。 表5 CloudServer 参数 参数类型 描述 id String 服务器资源id。 type String DevServer服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 HPS:超节点服务器 hps_id String
ServerHpsInfo object 服务器归属超节点信息。 表5 CloudServer 参数 参数类型 描述 id String 服务器资源id。 type String DevServer服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 HPS:超节点服务器 hps_id String
步骤二:使用Docker安装和配置正向代理 购买弹性云服务器ECS,详情请见购买ECS。镜像可选择Ubuntu最新版本。虚拟私有云选择提前创建好的VPC。 申请弹性公网IP EIP,详情请见申请弹性公网IP。 将弹性公网IP绑定到ECS,详情请见将弹性公网IP绑定至实例。 登录ECS,执行如下命
准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.907-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训
至弹性裸金属服务器,并完成安装,具体步骤请参考下载和安装obsutil。 使用obsutil之前,您需要配置obsutil与OBS的对接信息,包括OBS终端节点地址(Endpoint)和访问密钥(AK和SK)。获得OBS的认证后,才能使用obsutil执行OBS桶和对象的相关操作,具体步骤请参考初始化配置。
IO(一种WebSocket实现,要求客户端跟服务端都要基于Socket.IO),地址栏中填入从服务详情页“调用指南”页签中获取“API接口调用公网地址”后面的地址。如果自定义镜像中有更细粒度的地址,则在地址后面追加该URL。如果有queryString,那么在params栏中添加参数
IO(一种WebSocket实现,要求客户端跟服务端都要基于Socket.IO),地址栏中填入从服务详情页“调用指南”页签中获取“API接口调用公网地址”后面的地址。如果自定义镜像中有更细粒度的地址,则在地址后面追加该URL。如果有queryString,那么在params栏中添加参数
行中”,具体参见创建Notebook实例章节。 在Notebook实例详情页面获取开发环境访问地址(例如:dev-modelarts-cnnorth4.huaweicloud.com)和端口号。 图1 Notebook实例详情页面 准备好密钥对文件。 密钥对在用户第一次创建时,自
lfs,用于下载git仓中的大文件。 由于欧拉源上没有git-lfs包,所以需要从压缩包中解压使用,在浏览器中输入如下地址下载git-lfs压缩包并上传到服务器的/home目录。 https://github.com/git-lfs/git-lfs/releases/download/v3
由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源,不同机型的节点对应的操作系统、适用的CCE集群版本等不相同,为了便于您制作镜像、升级软件等操作,本文对不同机型对应的软件配套版本做了详细介绍。 裸金属服务器的对应的软件配套版本 表1 裸金属服务器 类型 卡类型 RDMA网络协议
配置项参数说明 参数名称 说明 iam_url IAM地址,默认为“https://iam.myhuaweicloud.com/v3/auth/tokens”。 iam_project 服务器所在区域的项目名称,获取方式请参见获取项目ID和名称。如果是本地服务器则默认是北京四区域,此处填写“cn-north-4”。
xxx" --network=host -t <镜像名称>:<版本名称> . <镜像名称>:<版本名称>:定义镜像名称。示例:pytorch_2_1_ascend:20240606 记住使用Dockerfile创建的新镜像名称, 后续使用 ${dockerfile_image_name}