云服务器内容精选

  • 模型剪枝 可以在Huggingface开源社区获取需剪枝的模型权重或者获得业务上已预训练好的模型权重,通过AscendModelNano工具进行FASP剪枝。 CUDA_VISIBLE_DEVI CES =0 python3 -m model_nano.prune_llama \ --model $MODEL_FILE \ --dataset $DATASET \ --nsamples $SAMPLE \ --sparsity $SPARSITY \ --save $SAVE_DIR \ --seed 0 \ --memory_efficient \ --eval 参数介绍: model:必选,要进行压缩的原始模型地址 save:必选,压缩后模型的保存的地址 dataset:可选,压缩模型所用的校准数据,可选范围["wikitext2","c4"],默认wikitext2。 nsamples:可选,压缩模型所用的校准数据样本数量,默认128。 seed:可选,随机数种子。 sparsity:可选,剪枝稀疏度,稀疏度越大剪枝压缩率越高,默认0.1。 memory_efficient:可选,优化剪枝过程中的显存使用,推荐传入。 eval:可选,是否进行压缩后模型的PPL评估。如果输入此参数,在wikitext2以及c4数据上进行PPL计算。 具体的代码示例如下。 GPU=0 SPARSITY=0.1 MODEL="llama-3-8b" SAMPLE=128 DATASET="wikitext2" MODEL_FILE="/mnt/models/$MODEL" SAVE_DIR="/mnt/save_models/${MODEL}_${SPARSITY}_${DATASET}_n${SAMPLE}" CUDA_VISIBLE_DEVICES=$GPU python3 -m model_nano.prune_llama \ --model $MODEL_FILE \ --dataset $DATASET \ --nsamples $SAMPLE \ --sparsity $SPARSITY \ --save $SAVE_DIR \ --seed 0 \ --memory_efficient \ --eval
  • 安装AscendModelNano AscendModelNano是FASP剪枝工具,适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/ModelNano目录下。 AscendModelNano工具需要安装,执行命令如下。 cd ModelNano # 进入ModelNano工具目录 bash build.sh AscendModelNano # 编译 pip install dist/AscendModelNano-0.1.0-py3-none-any.whl #安装
  • FASP剪枝 FASP剪枝是一种结构化稀疏剪枝方法,能有效降低模型显存以及需要部署的资源依赖,减小推理过程中的计算量,降低增量推理时延,提升吞吐。 FASP (Fast and Accurate Structured Pruning) 一种针对LLM进行结构化剪枝的算法,可以减少大模型对于内存和计算资源的需求,提升推理速度,同时其具备比较高的剪枝速度。使用FASP对大模型进行稀疏化剪枝,可以在几乎不影响推理精度情况下,可以有效提升推理性能(吞吐等)。 本文主要应用FASP对LLM进行剪枝压缩。
  • 如何保障数据库高可用 云数据库 GeminiDB采用计算存储分离架构,集群下多个数据库实例访问下层共享分布式存储,整体的故障有计算节点故障、存储节点故障两类。 图1 原理图 当计算节点故障,由于下层共享存储,其余非故障节点不需要进行数据恢复,直接接管业务,可提供秒级的故障切换,加上上层Proxy层链接保持能力,客户应用基本不感知故障发生。 而底层存储3副本,单点故障不会造成整体系统不可用。 图2 底层存储原理图 父主题: 关键特性