检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导(6.3.911) 本文档主要介绍如何在ModelArts Lite的DevServer环境中,使用NPU卡对CogVideoX模型基于sat框架进行全量微调。本文档中提供的脚本,是基于原生CogV
llama2-70b https://huggingface.co/meta-llama/Llama-2-70b-hf https://huggingface.co/meta-llama/Llama-2-70b-chat-hf (推荐) 4 llama3 llama3-8b https://huggingface
llama2-70b https://huggingface.co/meta-llama/Llama-2-70b-hf https://huggingface.co/meta-llama/Llama-2-70b-chat-hf (推荐) 4 llama3 llama3-8b https://huggingface
概念 提供按需扩展的高性能文件存储,可为云上多个云服务器提供共享访问。弹性文件服务就类似Windows或Linux中的远程目录。 提供海量、安全、高可靠、低成本的数据存储能力,可供用户存储任意类型和大小的数据。 可以为云服务器提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务,
准备镜像 准备大模型推理适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest-2
Docker Engine on Ubuntu。MiniConda与tflite安装包为第三方安装包,ModelArts不对其安全相关问题进行负责,如用户有安全方面的需求,可以对该安装包进行加固后发布成同样名称的文件上传到构建节点。 制作自定义镜像 确认Docker Engine版本。执行如下命令。
表2 配额信息 配额名称 配额值说明 单位 自动学习(预测分析)训练时长 默认无限制,支持设置1~60000。 分钟 自动学习(图像分类、物体检测、声音分类)训练时长 默认无限制,支持设置1~60000。 分钟 训练作业GPU规格训练时长(单张Pnt1单节点为统计基础单元) 默认无限制,支持设置1~60000。
阅读并同意《华为云AI Gallery数字内容发布协议》和《华为云AI Gallery服务协议》。 单击“发布”。 发布使用容器镜像导入的资产时,后台会进行资产安全扫描,如果扫描发现资产有问题,则资产发布失败并邮件通知发布者。 编辑资产详情 资产发布成功后,发布者可以进入详情页修改该资产的标题、封面图、描述等,让资产更吸引人。
在详情页的Workflow列表区域,单击“前往AI Gallery订阅”。 搜索“图像分类-ResNet_v1_50工作流”,单击“订阅”,勾选“我已同意《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》”,单击“继续订阅”即可完成工作流的订阅。订阅过的工作流会显示“已订阅”。 运行工作流
面。 图1所示图标,为JupyterLab的Git插件。 图1 Git插件 克隆GitHub的开源代码仓库 GitHub开源仓库地址:https://github.com/jupyterlab/extension-examplesitHub,单击,输入仓库地址,单击确定后即开始克
阅读并同意《华为云AI Gallery数字内容发布协议》和《华为云AI Gallery服务协议》。 单击“发布”。 发布使用容器镜像导入的资产时,后台会进行资产安全扫描,如果扫描发现资产有问题,则资产发布失败并邮件通知发布者。 编辑资产详情 资产发布成功后,发布者可以进入详情页修改该资产的标题、封面图、描述等,让资产更吸引人。
为null表示不根据值搜索,否则搜索的值满足列表中任意一个即可。 type Integer 标签类型。可选值如下: 0:图像分类 1:物体检测 3: 图像分割 100:文本分类 101:命名实体 102:文本三元组关系标签 103:文本三元组实体标签 200:语音分类 201:语音内容
三方开源源码 git clone https://gitee.com/ascend/MindSpeed.git git clone https://github.com/huggingface/transformers.git git clone https://github.com/NVIDIA/Megatron-LM
s:\n - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main\n - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r\n - https://mirrors
用于支持容器里使用RDMA网卡。 os-node-agent 6.5.0-20240529142433 无约束 无约束 OS插件,用于故障检测。 icAgent icagent default CCE默认安装当前适配版本 无约束 CCE基础组件,用于日志和监控。 父主题: Lite
报错处,需要用户分析定位后将自动迁移未能迁移的GPU相关的代码调用修改为NPU对应的接口,请参考昇腾手工迁移文档进行操作。 常见问题 如何检测当前的torch_npu是否正确安装? 您可以使用如下的python命令在对应的运行环境中初步校验torch_npu是否正常安装。 python3
updateStrategy String 驱动升级策略。可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 表12 PoolStatus 参数 参数类型 描述 phase String 资源池集群状态。可选值如下:
创建服务器是否启用IPV6。 roce_id 否 String 服务器RoCE网络ID。 security_group_id 是 String 服务器所在的安全组ID。 subnet_id 是 String 服务器所在子网ID。 vpc_id 是 String 服务器所在虚拟私有云ID。 表5 EvsVolume
"source": "https://test.obs.{ma_endpoint}.com:443/DATASETS/input/145862135_ab710de93c_n.jpg......", "preview": "https://test.obs
多项目时,展开“所属区域”,从“项目ID”列获取子项目ID。 调用API获取项目ID 项目ID通过调用查询指定条件下的项目信息API获取。 获取项目ID的接口为GET https://{iam-endpoint}/v3/projects,其中{iam-endpoint}为IAM的终端节点,可以从地区和终端节点处获取。