AI开发平台MODELARTS-准备代码:权重和词表文件介绍

时间:2024-11-05 09:54:17

权重和词表文件介绍

下载完毕后的HuggingFace原始权重文件包含以下内容,此处以GLM3-6B为例。

GLM3-6B
├── config.json
├── configuration_chatglm.py
├── model-00001-of-00007.safetensors
├── model-00002-of-00007.safetensors
├── model-00003-of-00007.safetensors
├── model-00004-of-00007.safetensors
├── model-00005-of-00007.safetensors
├── model-00006-of-00007.safetensors
├── model-00007-of-00007.safetensors
├── modeling_chatglm.py
├── MODEL_LICENSE
├── pytorch_model-00001-of-00007.bin
├── pytorch_model-00002-of-00007.bin
├── pytorch_model-00003-of-00007.bin
├── pytorch_model-00004-of-00007.bin
├── pytorch_model-00005-of-00007.bin
├── pytorch_model-00006-of-00007.bin
├── pytorch_model-00007-of-00007.bin
├── pytorch_model.bin.index.json
├── quantization.py
├── README.md
├── special_tokens_map.json
├── tokenization_chatglm.py
├── tokenizer_config.json
├── tokenizer.model

工作目录结构如下

${workdir}(例如/home/ma-user/ws )
├──llm_train  
    ├── AscendSpeed              #代码目录
        ├── AscendSpeed          #训练依赖的三方模型库
        ├── ModelLink            #AscendSpeed代码目录
        ├── scripts/             #训练启动脚本
├── processed_for_ma_input   
      ├── GLM3-6B
	      ├── data              #预处理后数据
		     ├── pretrain   #预训练加载的数据
		     ├── finetune   #微调加载的数据
	      ├──converted_weights  #HuggingFace格式转换magatron格式后权重文件
├── saved_dir_for_ma_output         #训练输出保存权重,根据实际训练需求设置
      ├── GLM3-6B
	      ├── logs              #训练过程中日志(loss、吞吐性能)
	      ├── lora              #lora微调输出权重
	      ├── sft               #增量训练输出权重
	      ├── pretrain          #预训练输出权重
├── tokenizers                      #原始权重及tokenizer目录
      ├── GLM3-6B
├── training_data                   #原始数据目录
      ├── pretrain                  #预训练加载的数据
              ├── train-00000-of-00001-a09b74b3ef9c3b56.parquet  #预训练原始数据文件
      ├── finetune                   #微调训练加载的数据
              ├── Alpaca_data_gpt4_zh.jsonl                          #微调训练原始数据文件
     
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1673.html