检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备推理环境 前提条件 已准备Lite Server资源,具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。 安装过程需要连接互联网git clone,确保容器可以访问公网。 步骤一:检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。
修改。 资源池:选择公共资源池 类型:选择GPU或者CPU规格。 永久保存日志:打开 作业日志路径:设置为OBS中存放训练日志的路径。例如:“obs://test-modelarts/pytorch/log/” 在“规格确认”页面,确认训练作业的参数信息,确认无误后单击“提交”。
指定每个设备的训练批次大小 gradient_accumulation_steps 8 可修改。指定梯度累积的步数,这可以增加批次大小而不增加内存消耗。可根据自己要求适配。取值可参考表1中梯度累积值列。 num_train_epochs 5 表示训练轮次,根据实际需要修改。一个Epo
的华为方技术支持。 适配的CANN版本是cann_8.0.rc2,驱动版本是23.0.5。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格,只有llama3-8B/70B支持该功能。 本案例仅支持在专属资源池上运行。 支持的模型列表 本方案支持以下模型的训练,如表1所示。
path导致服务启动调用冲突的,需在实例启动后,再指定PYTHONPATH、sys.path; 用户使用了已开启sudo权限的专属池,使用自定义镜像时,sudo工具未安装或安装错误; 用户使用的cann、cuda环境有兼容性问题; 用户的docker镜像配置错误、网络或防火墙限制、镜像构建问题(文件权
NPU Finetune训练指导(6.3.904) Open-Clip基于DevServer适配PyTorch NPU训练指导 AIGC工具tailor使用指导
该环境为裸机开发环境,主要面向深度定制化开发场景。 优点:支持深度自定义环境安装,可以方便的替换驱动、固件和上层开发包,具有root权限,结合配置指导、初始化工具及容器镜像可以快速搭建昇腾开发环境。 缺点:资源申请周期长,购买成本高,管理视角下资源使用效率较低。 环境开通指导请参考DevServer
Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格。 本案例仅支持在专属资源池上运行。 支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号 支持模型
“计算节点规格”:在下拉框中选择“限时免费”资源,勾选并阅读免费规格说明。 其他参数可使用默认值。 如果限时免费资源售罄,建议选择收费CPU资源进行部署。当选择收费CPU资源部署在线服务时会收取少量资源费用,具体费用以界面信息为准。 参数配置完成后,单击“下一步”,确认规格参数后,单击“提交”启动在线服务的部署。
|──llm_inference # 推理代码包 |──llm_tools # 推理工具 代码上传至SFS Turbo 将AscendSpeed代码包AscendCloud-LLM-xxx.zip直接上传至ECS服务器中的SFS
|──llm_inference # 推理代码包 |──llm_tools # 推理工具 代码上传至SFS Turbo 将AscendSpeed代码包AscendCloud-LLM-xxx.zip直接上传至ECS服务器中的SFS
|──ascendcloud_patch/ # patch补丁包 |──benchmark/ #工具包,存放数据集及基线数据 |──trainer.py # 训练启动脚本
导出全部数据到XLSX”或者“导出 > 导出部分数据到XLSX”,在浏览器的下载记录中查看导出的Excel表格。 驱动升级 支持升级Lite资源池内单个节点驱动版本,或批量升级多个节点的驱动版本。详情请参见升级Lite Cluster资源池单个节点驱动章节。 查找搜索节点 在节点管理页面的搜索栏中,支持
|──llm_inference # 推理代码包 |──llm_tools # 推理工具 代码上传至SFS Turbo 将AscendSpeed代码包AscendCloud-LLM-xxx.zip直接上传至ECS服务器中的SFS
|──llm_inference # 推理代码包 |──llm_tools # 推理工具 代码上传至SFS Turbo 将AscendSpeed代码包AscendCloud-LLM-xxx.zip直接上传至ECS服务器中的SFS
Service)作为存储的方案,OBS用于存储模型文件、训练数据、代码、日志等,提供了高可靠性的数据存储解决方案。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格,只有llama3-8B/70B支持该功能。 本案例仅支持在专属资源池上运行。 支持的模型列表 本方案支持以下模型的训练,如表1所示。
空间,以实际取值为准。 feature String 实例类别。枚举值: DEFAULT:CodeLab免费规格实例,每个用户最多只能创建一个。 NOTEBOOK:计费规格实例。 billing_items Array of strings 计费资源类型。枚举值: STORAGE:存储资源计费。
”页面,打开“查看所有”开关,可以看到IAM项目下所有子账号创建的Notebook实例。 按实例名称、实例ID、实例状态、使用的镜像、实例规格、实例描述、创建时间等单个筛选或组合筛选。 给子账号配置查看所有Notebook实例的权限 当子账号被授予“listAllNotebook
Gallery社区的Notebook案例,使用的资源是ASCEND的,“Run in ModelArts”跳转到CodeLab,就可以使用昇腾卡进行训练。 也支持切换规格 父主题: Standard Notebook
Code)或SSH客户端,通过SSH远程接入Notebook实例时需要的相关配置。 flavor 否 String 支持变更实例规格,支持变更的规格可以通过本章节的查询支持可切换规格列表的API获取。 image_id 否 String 支持更新镜像ID,镜像ID参考查询支持的镜像列表获取。