本地部署DeepSeek踩了一堆坑，12GB显存到底够不够用？求指路

heitao_linux · 2026 年3 月 26 日 00:24

最近想把DeepSeek部署到自己机器上，主要是图个隐私+省API费。硬件是i7-13700K + 64GB内存 + RTX 4070 Ti（12GB显存），Ubuntu 22.04。

用Ollama装的，安装本身很简单：

curl -fsSL https://ollama.com/install.sh | sh
ollama pull deepseek-v3:8b

然后就开始踩坑了……

坑1：显存不够。 直接拉满参数的模型，显存爆了。后来用了8B的Q4量化版，5GB显存就够了，速度大概30-40 token/s。

坑2：量化后中文质量下降。 Q4版本偶尔出现乱码和不通顺的句子。换成Q5之后好了很多。

坑3：API兼容问题。 想接到项目里用OpenAI兼容API，结果有些参数不支持。temperature默认值、stop sequence处理方式都有差异。

坑4：长对话记忆力差。 聊几轮就忘了前面说的内容。调了num_ctx到8192才好一些。

坑5：重启后加载慢。 每次重启电脑，第一次请求要等很久。

想问大家：

bare_metal_brad · 2026 年3 月 26 日 00:37

12GB显存跑8B模型绰绰有余，但想上更大的就不太行了。说说我的经验。

我的配置是RTX 3090（24GB显存），跑DeepSeek 33B Q4毫无压力，速度大概15-20 token/s。如果你预算允许，二手3090性价比很高，现在价格已经降了不少。

你遇到的几个坑都是经典问题，逐个说：

量化质量下降：Q4到Q5的质量差别确实大，特别是中文。我的经验是——对中文场景，最低用Q5，预算够就用Q6。英文场景Q4就够了。

API兼容：Ollama的OpenAI兼容层确实有些坑。推荐用LiteLLM做中间层，它能帮你抹平各种API的差异。配置一次，后面所有调用都统一了。

重启加载慢：你说的systemd预热方案是对的。我的做法是写一个oneshot service，在Ollama启动后自动发一个请求：

ExecStartPost=/bin/bash -c 'sleep 5 && curl -s http://localhost:11434/api/generate -d "{"model":"deepseek","prompt":"hello"}" > /dev/null'

这样开机一分钟左右模型就加载好了。

epyc_enjoyer · 2026 年3 月 26 日 00:59

说个不一样的思路——如果你的需求主要是隐私和省钱，不一定非要用GPU跑。

现在的CPU推理性能已经不错了。你有i7-13700K + 64GB内存，用llama.cpp的CPU模式跑8B模型，速度大概10-15 token/s。没有GPU那么快，但对于日常对话、文档处理这些场景完全够用。

优点是：不受显存限制，64GB内存想跑多大的上下文都行。我自己在EPYC服务器上用CPU跑70B模型，虽然慢但质量确实好很多。

当然如果你需要快速响应（比如接到实时应用里），还是GPU好。但如果只是自己聊天用，CPU方案值得考虑。

nvme_nate · 2026 年3 月 26 日 01:24

补充一下长文本记忆力的问题。

你说调num_ctx到8192，其实可以再高。4070 Ti 12GB显存跑8B Q5模型的话，num_ctx可以开到16384甚至更高。关键是要算好显存预算：

12GB显存完全装得下。你可以试试把num_ctx开到16384，长对话的记忆力会好很多。

还有个技巧：如果对话超过了上下文长度，可以让AI先总结之前的对话，再继续新的对话。这样用有限的上下文也能维持长期记忆。

docker_master_hu · 2026 年3 月 26 日 01:54

从运维角度说几点。

本地部署模型最容易忽略的是监控和管理。跑了一段时间之后你可能会遇到：

我的运维方案：

另外强烈建议用Docker部署Ollama而不是直接装在宿主机上。Docker方便管理和升级，出问题了直接重建容器就行。

docker run -d --gpus all -v ollama:/root/.ollama -p 11434:11434 ollama/ollama

deepwuer · 2026 年3 月 26 日 02:34

说说本地部署vs云端API的实际成本对比。

我之前算过一笔账：

也就是说，大概一年左右回本。但这个计算有个前提——你得每天都在大量使用。

如果你只是偶尔用一下，其实云端API更划算。本地部署更适合：

对了，如果是想省API费用但又不想折腾本地部署，可以看看当贝Molili，中文版OpenClaw，词元消耗比直接调API低不少。

heitao_linux · 2026 年3 月 26 日 03:04

感谢各位大佬的建议！总结一下我接下来的调整：

@epyc_enjoyer CPU方案确实是个思路，等我有空试试
@deepwuer 成本对比很有参考价值，我目前使用量还是挺大的，本地部署划算

再用一个月看看稳定性，到时候再更新体验报告~

mafan_le · 2026 年4 月 3 日 10:28

微调数据准备最费时间至少三天

xiaokeai8 · 2026 年4 月 3 日 10:28

效果好不好全看数据质量

dididada · 2026 年4 月 3 日 10:28

@mafan_le 有没有中文微调数据集推荐