检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
d/llm_train/AscendSpeed/tokenizers/Llama2-13B tokenizer路径,即:原始Hugging Face模型路径 MODEL_SAVE_PATH /home/ma-user/ws/xxx-Ascend/llm_train/AscendS
e-val-backup,注意需指定到val.jsonl的上一级目录。 详细说明可以参考vLLM官网:https://docs.vllm.ai/en/latest/quantization/auto_awq.html。 Step2 权重格式转换 AutoAWQ量化完成后,使用in
https://huggingface.co/datasets/mit-han-lab/pile-val-backup/resolve/main/val.jsonl.zst。 --scale-output:量化系数保存路径。 --scale-input:量化系数输入路径,如果之前
报错“Load key "C:/Users/xx/test1/xxx.pem": invalid format”如何解决? 问题现象 原因分析 密钥文件内容不正确或格式不正确。 解决方法 请使用正确的密钥文件进行远程访问,如果本地没有正确的密钥文件或文件已损坏,可以尝试: 登录控制台,搜索“数据加密服务
用户自定义镜像自建的conda环境会查到一些额外的包,影响用户程序,如何解决? 问题现象 用户的自定义镜像运行在Notebook里会查到一些额外的pip包。如下图所示,左侧为自定义镜像运行在本地环境,右侧为运行在Notebook里。 可能原因 Notebook自带moxing、m
/home/ma-user/ws/llm_train/saved_dir_for_output/llama2-13b/saved_models/pretrain_hf/ 目录下查看转换后的权重文件。 注意:权重转换完成后,需要将例如saved_models/pretrain_hf中的文件与原始Hugging
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5
命令: 进入到代码目录下{work_dir}/llm_train/LLaMAFactory/ascendcloud_patch/models/falcon2/如: cd /home/ma-user/ws/llm_train/LLaMAFactory/ascendcloud_patch/models/falcon2/
common_utils.py #获取训练日志工具 ├── performance.py #性能测试脚本 ├── trainer.py #训练启动脚本 ├── data.tgz # 样例数据 ├── setup.py
py脚本进行权重转换生成量化系数,详细参数解释请参见https://github.com/NVIDIA/TensorRT-LLM/tree/main/examples/llama#int8-kv-cache。 python convert_checkpoint.py \ --model_dir
_w8a8_int8.py中的代码: 1)若本地已有权重,请将MODEL_ID修改为权重路径; MODEL_ID = "deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct" 2)若量化Deepseek-V2-236B模型,请将num_gpus改为8;
w8a8_int8.py中的代码: 1)如果本地已有权重,请将MODEL_ID修改为权重路径; MODEL_ID = "deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct" 2)如果量化Deepseek-V2-236B模型,请将num_gpus改为8;
/home/ma-user/ws/llm_train/saved_dir_for_output/llama2-13b/saved_models/pretrain_hf/ 目录下查看转换后的权重文件。 注意:权重转换完成后,需要将例如saved_models/pretrain_hf中的文件与原始Hugging
per_device_train_batch_size=1 2*节点 & 8*Ascend sft per_device_train_batch_size=1 8*节点 & 8*Ascend cutoff_len=8192 lora per_device_train_batch_size=1
命令: 进入到代码目录下{work_dir}/llm_train/LLaMAFactory/ascendcloud_patch/models/falcon2/如: cd /home/ma-user/ws/llm_train/LLaMAFactory/ascendcloud_patch/models/falcon2/
py ##复制输出结果到OBS目录。 TRAIN_URL=`echo ${DLS_TRAIN_URL} | sed /s/s3/obs/` /opt/utils/obsutil cp –r –f /cache/out ${TRAIN_URL} 把run.sh放到/opt目录,
multi-step 什么是multi-step vLLM的调度和输入准备的CPU开销可能会导致NPU利用率不足,开启multi-step调度可以有效解决这个问题,开启multi-step调度后会在执行一次调度和输入准备后,连续n步运行模型。通过NPU在n步之间连续处理,而无需等
Chunked Prefill 什么是Chunked Prefill Chunked Prefill(Splitfuse)特性的目的是将长prompt request分解成更小的块,并在多个forward step中进行调度,只有最后一块的forward完成后才开始这个prompt
命令: 进入到代码目录下{work_dir}/llm_train/LLaMAFactory/ascendcloud_patch/models/falcon2/如: cd /home/ma-user/ws/llm_train/LLaMAFactory/ascendcloud_patch/models/falcon2/
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5