AI开发平台MODELARTS-准备代码:获取数据及代码

时间:2024-11-05 09:54:16

获取数据及代码

表1 准备代码

代码包名称

代码说明

下载地址

AscendCloud-3rdLLM-6.3.904-xxx.zip

说明:

包名中的xxx表示具体的时间戳,以包名的实际时间为准。

包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见代码目录介绍

AscendSpeed是用于模型并行计算的框架,其中包含了许多模型的输入处理方法。

获取路径:Support-E网站

说明:

如果没有下载权限,请联系您所在企业的华为方技术支持下载获取。

权重和词表文件

包含了本教程使用到的HuggingFace原始权重文件和Tokenizer。

标记器(Tokenizer)是NLP管道的核心组件之一。它们有一个目的:将文本转换为模型可以处理的数据。模型只能处理数字,因此标记器(Tokenizer)需要将文本输入转换为数字数据。

llama-2-7b-hf

llama-2-13b-chat-hf

llama-2-70b-chat-hf

这个路径下既有权重,也有Tokenizer,全部下载。具体内容参见权重和词表文件介绍

本文档前向兼容AscendCloud-3rdLLM-6.3.T041版本,获取路径:Support网站

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1603.html