检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Cloud Server,ECS)是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后,单击“远程登录”,可直接访问ECS服务器。 注意:CPU架构必须选择鲲鹏计算;镜像推荐选择EulerOS;EC
MA_SKIP_IMAGE_DETECT ModelArts预检是否开启。默认为1,1表示开启预检,0表示关闭预检。 推荐开启预检,预检可提前发现节点故障、驱动故障。 “1” 表8 卡死检测相关环境变量 变量名 说明 示例 MA_HANG_DETECT_TIME 卡死检测时间。在这段时间内IO无变化则判定为任务卡死。
也可以修改资产的可见性。 编辑Notebook介绍 在Notebook详情页,单击“项目介绍”。 在基础设置中设置“许可证”、“语言”、“框架”、“任务类型”和“硬件资源”等信息。 单击“确定”。 编辑设置 基本设置 单击右侧的,可以更改Notebook名称和描述。 编辑完成之后单击“确定”。
启动命令行封装脚本,在install.sh里面自动构建 |──Megatron-LM/ # 适配昇腾的Megatron-LM训练框架 |──MindSpeed/ # MindSpeed昇腾大模型加速库 |──ModelLink/
启动命令行封装脚本,在install.sh里面自动构建 |──Megatron-LM/ # 适配昇腾的Megatron-LM训练框架 |──MindSpeed/ # MindSpeed昇腾大模型加速库 |──ModelLink/
启动命令行封装脚本,在install.sh里面自动构建 |──Megatron-LM/ # 适配昇腾的Megatron-LM训练框架 |──MindSpeed/ # MindSpeed昇腾大模型加速库 |──ModelLink/
启动命令行封装脚本,在install.sh里面自动构建 |──Megatron-LM/ # 适配昇腾的Megatron-LM训练框架 |──MindSpeed/ # MindSpeed昇腾大模型加速库 |──ModelLink/
Job Description 训练作业的简要描述。 Algorithm Source 训练算法来源,分为“常用框架”和“自定义镜像”两种,二者选一项即可。 常用框架指使用ModelArts训练管理中支持的常用AI引擎,当前支持的引擎列表请参见ModelArts支持的预置镜像列表。
【可选】dataset_info.json配置文件所属的绝对路径;如使用自定义数据集,yaml配置文件需添加此参数。 是否选择加速深度学习训练框架Deepspeed,可参考表1选择不同的框架。 是,选用ZeRO (Zero Redundancy Optimizer)优化器。 ZeRO-0,配置以下参数 deepspeed:
【可选】dataset_info.json配置文件所属的绝对路径;如使用自定义数据集,yaml配置文件需添加此参数。 是否选择加速深度学习训练框架Deepspeed,可参考表1选择不同的框架。 是,选用ZeRO (Zero Redundancy Optimizer)优化器。 ZeRO-0,配置以下参数 deepspeed:
至昇腾设备上训练、模型精度对齐以及性能调优。 迁移环境准备 本文以弹性裸金属作为开发环境。弹性裸金属支持深度自定义环境安装,可以方便地替换驱动、固件和上层开发包,具有root权限,结合配置指导、初始化工具及容器镜像可以快速搭建昇腾开发环境。 开通裸金属服务器资源请参见DevSer
步骤一:下载ModelArts SDK 步骤二:配置运行环境 步骤三:安装ModelArts SDK ModelArts SDK支持安装在Windows和Linux操作系统中。 如果在Windows上安装ModelArts SDK时出现报错,可参见FAQ:安装ModelArts SDK报错处理报错。
【可选】dataset_info.json配置文件所属的绝对路径;如使用自定义数据集,yaml配置文件需添加此参数。 是否选择加速深度学习训练框架Deepspeed,可参考表1选择不同的框架。 是,选用ZeRO (Zero Redundancy Optimizer)优化器。 ZeRO-0,配置以下参数 deepspeed:
模型。 图1 AI开发流程 确定目的 在开始AI开发之前,必须明确要分析什么?要解决什么问题?商业目的是什么?基于商业的理解,整理AI开发框架和思路。例如,图像分类、物体检测等等。不同的项目对数据的要求,使用的AI开发手段也是不一样的。 准备数据 数据准备主要是指收集和预处理数据的过程。
“镜像源”选择构建好的镜像。可直接复制完整的SWR地址,或单击选择SWR构建好的镜像进行注册。 图2 选择镜像源 “架构”和“类型”:根据自定义镜像的实际框架选择。 注册后的镜像会显示在ModelArts“镜像管理”页面。 父主题: 制作自定义镜像用于创建Notebook
支持服务的高并发和弹性伸缩需求。CCE的更多信息请参见《云容器引擎用户指南》。 与容器镜像服务的关系 当使用ModelArts不支持的AI框架构建模型时,可通过构建的自定义镜像导入ModelArts进行训练或推理。您可以通过容器镜像服务(Software Repository for
支持服务的高并发和弹性伸缩需求。CCE的更多信息请参见《云容器引擎用户指南》。 与容器镜像服务的关系 当使用ModelArts不支持的AI框架构建模型时,可通过构建的自定义镜像导入ModelArts进行训练或推理。您可以通过容器镜像服务(Software Repository for
2409-aarch64-snt9b-20241112192643-c45ac6b cann_8.0.rc3 pytorch_2.1.0 驱动23.0.6 从SWR拉取 不同软件版本对应的基础镜像地址不同,请严格按照软件版本和镜像配套关系获取基础镜像。 Step1 检查环境 请参
包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 AscendSpeed是用于模型并行计算的框架,其中包含了许多模型的输入处理方法。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.911版本。 说明: 如
包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 AscendSpeed是用于模型并行计算的框架,其中包含了许多模型的输入处理方法。 获取路径:Support-E 请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 本教程需要使用到的AscendCloud-6