将HF模型转GGUF格式用于Ollama

将hugginface里的模型转成 GGUF

来源 https://github.com/ggerganov/llama.cpp/discussions/2948

1、 下载 llama.cpp 代码

git clone https://github.com/ggerganov/llama.cpp.git

创建环境, 安装

pip install -r llama.cpp/requirements.txt

2、 下载模型

2025年1月, 使用 https://hf-mirror.com/ 下载模型

3、 转换

转换命令如下:

python convert_hf_to_gguf.py /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-merged --outfile /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF/Llama3-8B-Chinese-Chat-q8_0-v1.gguf --outtype q8_0
./llama-quantize ./新模型路径/新模型名.gguf  ./输出路径/4位gguf格式文件名.gguf Q4_K_M 采用4位  如果8位就Q8_K_M
--outtype f16 (16 bit) or --outtype f32 (32 bit) 

4、 ollama 使用

https://github.com/ollama/ollama?tab=readme-ov-file#import-from-gguf

4.1 创建 Modelfile文件 里面写上 FROM ./vicuna-33b.Q4_0.gguf
4.2 ollama create model_name -f Modelfile
4.3 ollama run model_name




    Enjoy Reading This Article?

    Here are some more articles you might like to read next:

  • 教师手机或平板控制电脑,当翻页笔用甚至写字
  • 硕博面试小建议——讲好故事
  • Docker如何用上宿主机的Clash代理
  • 独显用于深度学习运算,核显用于屏幕显示
  • 关于英语的乱想法