检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
部署推理服务 非分离部署推理服务 分离部署推理服务 父主题: 主流开源大模型基于Server适配PyTorch NPU推理指导(6.3.909)
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard。资源规格需要使用专属资源池中的昇腾Snt9B资源,请参考创建资源池购买资源。 推荐使用“西南-贵阳一”Region上的昇腾资源。 专属资源池驱动检查 登录ModelArts控制台,单击“专属资源池
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook(可选) 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.907)
准备镜像 准备大模型推理适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2
# 基于AscendSpeed的训练代码 |──ascendcloud_patch/ # 针对昇腾云平台适配的功能补丁包 |──scripts/ # 训练需要的启动脚本
# 基于AscendSpeed的训练代码 |──ascendcloud_patch/ # 针对昇腾云平台适配的功能补丁包 |──scripts/ # 训练需要的启动脚本
# 基于AscendSpeed的训练代码 |──ascendcloud_patch/ # 针对昇腾云平台适配的功能补丁包 |──scripts/ # 训练需要的启动脚本
选择数据集支持用于什么类型的训练模型。 运行平台 选择数据集额外支持的运行平台。 设置运行平台后,当资产上架后,该资产支持通过订阅的方式同步到所选运行平台使用。 设置运行平台后,单击“设置”,在弹窗中可以自定义设置运行平台的资产标签,且标签可以被一起同步至运行平台。 数据集描述 - 资产的RE
VS Code连接远端Notebook时报错“XHR failed” 问题现象 VS Code连接远端Notebook时报错“XHR failed”。 原因分析 可能是所在环境的网络有问题,无法自动下载VS Code Server,请手动安装。 解决方法 打开VS Code,选择
Notebook中安装依赖包报错ERROR: HTTP error 404 while getting xxx 问题现象 在Notebook中安装依赖包时报错,报错截图如下: 原因分析 pypi源没有这个包或源不可用。 解决方案 使用别的源下载。 pip install -i 源地址
查询训练作业参数列表 功能介绍 根据指定条件查询用户创建的训练作业参数。 URI GET /v1/{project_id}/training-job-configs 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户
从OBS导入数据到ModelArts数据集 从OBS导入数据到数据集场景介绍 从OBS目录导入数据到数据集 从Manifest文件导入数据到数据集 从OBS目录导入数据规范说明 从Manifest文件导入规范说明 父主题: 导入数据到ModelArts数据集
VS Code ToolKit连接Notebook 本节介绍如何在本地使用ModelArts提供的VS Code插件工具VS Code ToolKit,协助用户完成SSH远程连接Notebook。 VS Code ToolKit功能介绍 前提条件 已下载并安装VS Code。详细操作请参考安装VS
使用自动学习实现声音分类 准备声音分类数据 创建声音分类项目 标注声音分类数据 训练声音分类模型 部署声音分类服务 父主题: 使用自动学习实现零代码AI开发
使用自动学习实现文本分类 准备文本分类数据 创建文本分类项目 标注文本分类数据 训练文本分类模型 部署文本分类服务 父主题: 使用自动学习实现零代码AI开发
管理批量服务生命周期 启动服务 您可以对处于“运行完成”、“异常”和“停止”状态的服务进行启动操作,“部署中”状态的服务无法启动。启动服务,当服务处于“运行中”状态后,ModelArts将开始计费。您可以通过如下方式启动服务: 登录ModelArts管理控制台,在左侧菜单栏中选择
创建单机多卡的分布式训练(DataParallel) 本章节介绍基于PyTorch引擎的单机多卡数据并行训练。 MindSpore引擎的分布式训练参见MindSpore官网。 训练流程简述 单机多卡数据并行训练流程介绍如下: 将模型复制到多个GPU上 将一个Batch的数据均分到每一个GPU上
查看Workflow工作流运行记录 运行记录是展示某条工作流所有运行状态数据的地方。 在Workflow列表页,单击某条工作流的名称,进入该工作流的详情页面。 在工作流的详情页,左侧区域即为该条工作流的所有运行记录。 图1 查看运行记录 您可以对当前工作流的所有运行记录,进行删除、编辑以及重新运行的操作。
开发Workflow的核心概念介绍 Workflow Workflow是一个有向无环图(Directed Acyclic Graph,DAG),由节点和节点之间的关系描述组成。 图1 Workflow介绍 节点与节点之间的依赖关系由单箭头的线段来表示,依赖关系决定了节点的执行顺序
配置Standard专属资源池可访问公网 场景介绍 当您使用专属资源池创建作业时(如训练作业),如果需要作业运行过程中需要专属资源池访问外网,可打通VPC的方式,使得专属资源池和已绑定EIP的弹性云服务器处于同一VPC内,实现专属资源池访问外网。 前提条件 已拥有需要部署SNAT的弹性云服务器。