检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
返回推理结果。服务调度实例不占用显卡资源,建议增加1个容器,也可以在全量推理或增量推理的容器上启动。 前提条件 已准备好DevServer环境,具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的DevServer和昇腾Snt9b资源。 安装过程需要连接互联网git clone,确保容器可以访问公网。
如果要使用自动重启功能,资源规格必须选择八卡规格。 当前功能还处于试验阶段,只有llama3-8B/70B适配。 Step5 其他配置 选择用户自己的专属资源池,以及规格与节点数。防止训练过程中出现内存溢出的情况,用户可参考表1进行配置。 图3 选择资源池规格 作业日志选择OBS
如果要使用自动重启功能,资源规格必须选择八卡规格。 当前功能还处于试验阶段,只有llama3-8B/70B适配。 Step5 其他配置 选择用户自己的专属资源池,以及规格与节点数。防止训练过程中出现内存溢出的情况,用户可参考表1进行配置。 图4 选择资源池规格 作业日志选择OBS
如果type是CUSTOM且是资源租户调用,source为真实用户的project_id, 否则不需要这个字段。 type String 数据源类型。可选值如下: OBS:数据来源于OBS TASK:数据处理任务 DATASET:数据集 CUSTOM:资源租户调用 version_id
在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step4 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图3 复制登录指令 Step5 获取训练镜像 请确保在正确的Region下获取
镜像适配的Cann版本是cann_8.0.RC3。 DevServer驱动版本要求23.0.6 PyTorch版本:2.2.0 Python版本:3.10 确保容器可以访问公网。 仅支持313T、376T、400T 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表及权重文件地址
"aom:alarm:list" ] } ] } 创建用户组并加入用户,步骤请参考Step1 创建用户组并加入用户。 给用户组授权策略。 在IAM服务的用户组列表页面,单击“授权”,进入到授权页面,为子账号配置权限。勾选“service”、“SWR
S的值能够被NPU/(TP×PP×CP)的值进行整除。 Step4 其他配置 选择用户自己的专属资源池,以及规格与节点数。防止训练过程中出现内存溢出的情况,用户可参考表1进行配置。 图2 选择资源池规格 作业日志选择OBS中的路径,训练作业的日志信息则保存该路径下。 最后,提交训
S的值能够被NPU/(TP×PP×CP)的值进行整除。 Step4 其他配置 选择用户自己的专属资源池,以及规格与节点数。防止训练过程中出现内存溢出的情况,用户可参考表1进行配置。 图2 选择资源池规格 作业日志选择OBS中的路径,训练作业的日志信息则保存该路径下。 最后,提交训
28。版本使用的容器引擎为Containerd。 镜像适配的Cann版本是cann_8.0.rc3,驱动版本是23.0.6。 确保集群可以访问公网。 文档更新内容 6.3.910版本相对于6.3.909版本新增如下内容: 文档中新增对Qwen2.5的适配(包括0.5B、7B, 14B
镜像适配的Cann版本是cann_8.0.rc3。 Lite Server驱动版本要求23.0.6 PyTorch版本:2.1.0 确保容器可以访问公网。 文档更新内容 6.3.910版本相对于6.3.909版本新增如下内容: 文档中新增对Qwen2.5的适配(包括0.5B、7B, 14B
否 Object 创建可视化作业选择的规格,用户无需填写。参见表3。 schedule 否 Object 自动停止设置。参见表4。 表3 flavor属性列表 参数 是否必选 参数类型 说明 code 是 String 可视化作业选择的资源规格编码。通过flavor接口获得。 表4
ook实例。 前提条件 注册并登录华为云,详细操作请参见准备工作。 打开Notebook实例 登录“AI Gallery”。 选择“资产集市 > Notebook”,进入Notebook页面,该页面展示了所有共享的Notebook实例。 搜索业务所需的Notebook实例,请参见查找和收藏资产。
功能介绍 根据指定条件查询用户创建的可视化作业列表。 URI GET /v1/{project_id}/visualization-jobs 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。
动态挂载OBS并行文件系统操作 方式1:通过ModelArts控制台操作 登录ModelArts管理控制台,在左侧导航栏中选择“开发空间 > Notebook”,进入“Notebook”页面。 选择运行中的Notebook实例,单击实例名称,进入Notebook实例详情页面,在“存储配置”页签,单击“添加数据存储”,设置挂载参数。
{image_url} Step5 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图3 复制登录指令 Step6 修改并上传镜像 1. 登录指令输入之后,使用下列示例命令: docker
“用户名”:输入DWS集群管理员用户的用户名。 “密码”:输入DWS集群管理员用户的密码。 DWS的详细功能说明,请参见《DWS用户指南》。 说明: 从DWS导入数据,需要借助DLI的功能,如果用户没有访问DLI服务的权限,需根据页面提示创建DLI的委托。 数据源(“DLI”) “队列名称”:系
体命令可参考obsutil工具快速使用,将OBS桶中的数据下载至SFS Turbo中。注意:需要使用用户账号中的AK和SK进行签名验证,确保通过授权的账号才能访问指定的OBS资源。 父主题: 准备工作
体命令可参考obsutil工具快速使用,将OBS桶中的数据下载至SFS Turbo中。注意:需要使用用户账号中的AK和SK进行签名验证,确保通过授权的账号才能访问指定的OBS资源。 父主题: 准备工作
镜像适配的Cann版本是cann_8.0.RC3。 DevServer驱动版本要求23.0.6 PyTorch版本:2.2.0 Python版本:3.10 确保容器可以访问公网。 仅支持313T、376T、400T 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表及权重文件地址