目录

win11编译llama_cpp_python-cuda128-RTX304050版本

win11编译llama_cpp_python cuda128 RTX30/40/50版本

Geforce 50xx系显卡最低支持cuda128,llama_cpp_python官方源只有cpu版本,没有cuda版本,所以自己基于0.3.5版本源码编译一个RTX 30xx/40xx/50xx版本。

  1. 访问 安装cuda12.8 toolkit, 安装完成后在命令行输入“nvcc -V”确认如下信息:
Cuda compilation tools, release 12.8, V12.8.61
  1. 使用visual studio installer 安装visual studio 2022,工作负荷选择【使用c++的桌面开发】,安装完成后将“ VC\Tools\MSVC<版本号>\bin\Hostx64\x64 ”对1应的路径加入 ; https://i-blog.csdnimg.cn/direct/00c732764e75440ab9bd738870c92e10.png

  2. 访问 下载源码( ),下载后解压; 访问 下载源码( ),下载后解压到 “ llama_cpp_python\vendor\llama.cpp”

  3. 访问 安装miniforge;

conda create llama_build
conda activate llama_build
conda install ccahce
pip install build wheel

set CMAKE_ARGS=-DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=86;89;120

cd C:\llama_cpp_python
python -m build --wheel