检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.909-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.911-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
CANN:cann_8.0.rc3 Step1 创建ECS 下文中介绍如何在ECS中构建一个推理镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:C
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.908-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.910-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.906-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.907-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 获取配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-3rdLLM-6.3.905-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
FS Turbo缓存中,并可被下游业务环节继续读取并处理,结果数据可以异步方式导出到关联的OBS对象存储中进行长期低成本存储,从而加速训练场景下加速OBS对象存储中的数据访问 ModelArts Standard模型训练提供便捷的作业管理能力,提升用户模型训练的开发效率 提供算法
配置顺序 配置任务 场景说明 1 配置Lite Server网络 Server资源开通后,需要进行网络配置,才可使其与Internet通信。在后续配置存储和软件环境时需要Server服务器能够访问网络,因此需要先完成网络配置。 2 配置Lite Server存储 Server资源
ModelArts平台提供了Tensorflow,PyTorch,MindSpore等常用深度学习任务的基础镜像,镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时,您还可以基于这些基础镜像制作一个新的镜像并进行训练。 训练作业的预置框架介绍 ModelArts中预置的训练基础镜像如下表所示。
训练脚本说明 yaml配置文件参数配置说明 各个模型深度学习训练加速框架的选择 模型NPU卡数取值表 各个模型训练前文件替换 父主题: 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导(6.3.907)
Standard训练模型 模型训练使用流程 准备模型训练代码 准备模型训练镜像 创建调试训练作业 创建算法 创建生产训练作业 分布式模型训练 模型训练存储加速 增量模型训练 自动模型优化(AutoSearch) 模型训练高可靠性 管理模型训练作业
additional information. 原因分析 该问题为用户使用VS Code 1.86版本软件导致的,需要用户使用较低版本的VS Code 。 解决方案 使用VS Code 1.85版本软件。下载链接:https://code.visualstudio.com/updates/v1_85。
专属资源池为用户提供独立的计算集群、网络,不同用户间的专属资源池物理隔离,公共资源池仅提供逻辑隔离,专属资源池的隔离性、安全性要高于公共资源池。 专属资源池用户资源独享,在资源充足的情况下,作业是不会排队的;而公共资源池使用共享资源,在任何时候都有可能排队。 专属资源池支持打通用户的网络,在该专属资源
将yaml文件中的per_device_train_batch_size调小,重新训练如未解决则执行下一步。 替换深度学习训练加速的工具或增加zero等级,可参考各个模型深度学习训练加速框架的选择,如原使用Accelerator可替换为Deepspeed-ZeRO-1,Deepspeed-ZeR
子用户仅限于对自己创建的工作空间下的资源池进行迁移操作。 网络工作空间迁移 登录ModelArts管理控制台,选择“AI专属资源池 > 弹性集群Cluster”,切换到“网络”页签。 在网络列表中,选择目标网络“操作 > 更多 > 工作空间迁移”。 在弹出的“迁移网络”中,选择要迁移的“目标工作空间”,单击“确定”。
准备代码 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.911-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的推理部署代码和推理评测代码
准备代码 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表1所示。 表1 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.909-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的推理部署代码和推理评测代码
本教程中用到的模型软件包如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.912-xxx.zip 说明: 软件包名称中的xxx表示时间戳。