本地部署项目记录deepseekQWQ

2025-03-07 约 351 字预计阅读 1 分钟

https://bing.ee123.net/img/rand?artid=146092532

本地部署项目记录【deepseek、QWQ】

1-DeepSeek

参考：


问题： (base) root@QiuKu_303:~/Documents/Ollama# sh ollama_install.sh »> Cleaning up old version at /usr/local/lib/ollama »> Installing ollama to /usr/local »> Downloading Linux amd64 bundle ######################################################################### 100.0%
解决：【跳过问题】 export LD_LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:$LD_LIBRARY_PATH

2-QWQ-32B

参考：消费级显卡也能跑！QwQ-32B本地部署教程来了！【视频号】

参考：


conda create -n QWQ-32B python=3.12
pip install vllm
pip install git+https://github.com/huggingface/transformers
pip install modelscope
modelscope download –model ‘Qwen/QwQ-32B’ –local_dir ‘目标目录’
vllm serve /home74/liguangzhen/folder/QwQ-32B


方案 1：使用 vLLM 部署 DeepSeek vLLM 具有高吞吐量，支持 PagedAttention，高效利用多张 GPU。 1. 安装 vLLM `pip install vllm pip install modelscope` 2. 下载 DeepSeek 模型拉取 DeepSeek 相关模型，例如：# 以 deepseek-ai/deepseek-llm-7b-chat 为例 `modelscope download --model 'deepseek-ai/deepseek-llm-7b-chat' --local_dir '/home74/liguangzhen/folder/DeepSeek'` 3. 启动 vLLM 服务器 `python -m vllm.entrypoints.openai.api_server \ --model deepseek-7b-chat \ --tensor-parallel-size 4 # 4 张 GPU 进行张量并行` * `tensor-parallel-size` 设为 4，可以让 4 张 3090 共同运行一个模型。启动后，API 服务会运行在 `http://localhost:8000/v1/completions` ，可以用 OpenAI API 兼容方式调用。 4. 测试 API `import requests url = "http://localhost:8000/v1/completions" headers = {"Content-Type": "application/json"} data = { "model": "deepseek-7b-chat", "prompt": "请介绍一下深度学习。", "max_tokens": 200 } response = requests.post(url, headers=headers, json=data) print(response.json())`

方案 1：使用 vLLM 部署 DeepSeek vLLM 具有高吞吐量，支持 PagedAttention，高效利用多张 GPU。 1. 安装 vLLM pip install vllm pip install modelscope 2. 下载 DeepSeek 模型 拉取 DeepSeek 相关模型，例如：# 以 deepseek-ai/deepseek-llm-7b-chat 为例 modelscope download --model 'deepseek-ai/deepseek-llm-7b-chat' --local_dir '/home74/liguangzhen/folder/DeepSeek' 3. 启动 vLLM 服务器

python -m vllm.entrypoints.openai.api_server \ --model deepseek-7b-chat \ --tensor-parallel-size 4 # 4 张 GPU 进行张量并行

* tensor-parallel-size 设为 4，可以让 4 张 3090 共同运行一个模型。启动后，API 服务会运行在 http://localhost:8000/v1/completions ，可以用 OpenAI API 兼容方式调用。 4. 测试 API

import requests url = "http://localhost:8000/v1/completions" headers = {"Content-Type": "application/json"} data = { "model": "deepseek-7b-chat", "prompt": "请介绍一下深度学习。", "max_tokens": 200 } response = requests.post(url, headers=headers, json=data) print(response.json())

目录

本地部署项目记录deepseekQWQ

本地部署项目记录【deepseek、QWQ】

1-DeepSeek

2-QWQ-32B