llama.cpp一种在本地CPU上部署的量化模型（超低配推理llama）

0x00 背景

前不久，Meta前脚发布完开源大语言模型LLaMA，

随后就被网友“泄漏”，直接放了一个磁力链接下载链接。

然而那些手头没有顶级显卡的朋友们，就只能看看而已了

但是 Georgi Gerganov 开源了一个项目llama.cpp

ggerganov/llama.cpp: Port of Facebook’s LLaMA model in C/C++ (github.com)

次项目的牛逼之处就是没有GPU也能跑LLaMA模型

大大降低的使用成本，本文就是时间如何在我的 mac m1 pro 上面跑起来这个模型

llama.cpp：提供了一种模型量化和在本地CPU上部署方式

文本介绍了如何使用llama.cpp工具将深度学习模型进行量化并在本地CPU上部署的详细步骤。

以下是具体步骤的解释：

0x01 Step1 环境准备

高版本python 3.10

pip install protobuf==3.20.0
pip install transformers  最新版
pip installsentencepiece （0.1.97测试通过）
pip install peft  （0.2.0测试通过）
pip install git+https://github.com/huggingface/transformers
pip install sentencepiece
pip install peft

确保机器有足够的内存加载完整模型，7B模型需要13-15G
下载原版LLaMA模型的权重和tokenizer.model文件

下载参考这个[PR]https://github.com/facebookresearch/llama/pull/73/files

压缩包内文件目录如下（LLaMA-7B为例）：

chinese_llama_lora_7b/
  - adapter_config.json		# LoRA权重配置文件
  - adapter_model.bin		# LoRA权重文件
  - special_tokens_map.json	# special_tokens_map文件
  - tokenizer_config.json	# tokenizer配

llama.cpp一种在本地CPU上部署的量化模型（超低配推理llama）

0x00 背景

llama.cpp：提供了一种模型量化和在本地CPU上部署方式

0x01 Step1 环境准备

悦读