本地部署DeepSeek模型全攻略：从部署到压测一网打尽

张

张建站

2026/5/19 9:33:55

10分钟阅读

本地部署DeepSeek模型全攻略从部署到压测一网打尽1. 引言DeepSeek系列模型如DeepSeek-V2、DeepSeek-Coder等凭借卓越的性能和开放的技术报告受到了广泛关注。将这类大语言模型部署到本地不仅可以保护数据隐私还能按需定制推理服务。本文将从零开始带你完成DeepSeek模型的本地部署、基础使用、压测概念解析以及实战压测方法。无论你是AI开发者、运维工程师还是技术发烧友都能从中获益。阅读收获学会在个人服务器/PC上部署DeepSeek模型掌握调用模型进行文本生成的多种方式理解压力测试的核心指标与流程能够使用工具对模型服务进行性能压测2. 本地部署DeepSeek模型2.1 硬件与环境准备以DeepSeek-V2-Lite16B参数为例推荐配置组件最低要求推荐配置GPU 显存24GBFP162×24GB 或 1×80GBA100系统内存32GB64GB硬盘空间50GB模型权重依赖100GB预留缓存操作系统Ubuntu 20.04 / Windows 11Ubuntu 22.04Python版本3.103.10 / 3.11如果只有消费级显卡如RTX 3090/4090 24GB可以使用量化版本INT8/INT4降低显存需求。本文以DeepSeek-V2-Lite-ChatHugging Face Transformers为例。2.2 安装依赖环境# 创建虚拟环境推荐python-mvenv deepseek-envsourcedeepseek-env/bin/activate# Linux/Mac# deepseek-env\Scripts\activate # Windows# 安装PyTorch根据CUDA版本选择以下为CUDA 11.8pipinstalltorch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118# 安装Transformers及相关库pipinstalltransformers accelerate sentencepiece bitsandbytes2.3 下载模型权重从Hugging Face Hub下载需科学上网或设置镜像fromtransformersimportAutoModelForCausalLM,AutoTokenizer model_namedeepseek-ai/DeepSeek-V2-Lite-ChattokenizerAutoTokenizer.from_pretrained(model_name,trust_remote_codeTrue)modelAutoModelForCausalLM.from_pretrained(model_name,trust_remote_codeTrue,torch_dtypeauto,device_mapauto# 自动分配到可用GPU)离线下载若服务器无法联网可先下载到本地再上传。使用huggingface_hubCLIhuggingface-cli download deepseek-ai/DeepSeek-V2-Lite-Chat --local-dir ./deepseek-model2.4 快速验证推理编写一个简单的脚本test_inference.pyfromtransformersimportAutoModelForCausalLM,AutoTokenizer model_name./deepseek-model# 本地路径tokenizerAutoTokenizer.from_pretrained(model_name,trust_remote_codeTrue)modelAutoModelForCausalLM.from_pretrained(model_name,trust_remote_codeTrue,device_mapauto,torch_dtypeauto)prompt解释一下什么是压力测试inputstokenizer(prompt,return_tensorspt).to(model.device)outputsmodel.generate(**inputs,max_new_tokens200)print(tokenizer.decode(outputs[0],skip_special_tokensTrue))运行python test_inference.py若正常输出说明部署成功。3. 如何使用本地部署的模型3.1 交互式命令行利用transformers的管道可快速搭建交互环境fromtransformersimportpipeline pipepipeline(text-generation,modelmodel,tokenizertokenizer)whileTrue:user_inputinput( )ifuser_input.lower()in[exit,quit]:breakoutpipe(user_input,max_new_tokens256,do_sampleTrue)[0][generated_text]print(out.replace(user_input,).strip())3.2 封装成HTTP APIFastAPI将模型服务暴露为RESTful API便于业务系统调用。# serve.pyfromfastapiimportFastAPI,RequestfrompydanticimportBaseModelimportuvicornfromtransformersimportAutoModelForCausalLM,AutoTokenizer appFastAPI()classGenerateRequest(BaseModel):prompt:strmax_tokens:int200temperature:float0.7# 加载模型全局单例tokenizerAutoTokenizer.from_pretrained(./deepseek-model,trust_remote_codeTrue)modelAutoModelForCausalLM.from_pretrained(./deepseek-model,trust_remote_codeTrue,device_mapauto)app.post(/generate)asyncdefgenerate(req:GenerateRequest):inputstokenizer(req.prompt,return_tensorspt).to(model.device)outputsmodel.generate(**inputs,max_new_tokensreq.max_tokens,temperaturereq.temperature,do_sampleTrue)responsetokenizer.decode(outputs[0],skip_special_tokensTrue)return{result:response}if__name____main__:uvicorn.run(app,host0.0.0.0,port8000)启动服务python serve.py调用示例curl -X POST http://localhost:8000/generate -H Content-Type: application/json -d {prompt:你好请介绍一下自己,max_tokens:100}3.3 使用Ollama更轻量对于量化后的DeepSeek模型如DeepSeek-Coder 6.7B INT4可使用Ollama一键部署# 安装Ollamacurl-fsSLhttps://ollama.com/install.sh|sh# 拉取并运行DeepSeek-Coder模型社区贡献ollama run deepseek-coder:6.7b-instruct-q4_K_MOllama会自动管理模型加载并提供API和命令行交互。4. 什么是压力测试压测压力测试Stress Testing是性能测试的一种通过模拟高并发、高负载的请求检测系统在极限条件下的稳定性、吞吐量、响应延迟和资源消耗。对于本地部署的LLM服务压测的目的是确认单卡/多卡推理的最大并发数评估平均响应时间RT与每秒请求数QPS/RPS找出性能瓶颈GPU利用率、显存带宽、CPU预处理验证服务在负载下的可靠性是否会OOM、崩溃关键指标指标含义QPS每秒成功处理的请求数量Query Per SecondLatency请求从发出到收到完整响应的耗时常用分位数p50, p95, p99TPOT每个token的生成时间Time Per Output TokenGPU显存推理过程中占用的显存峰值吞吐量单位时间内生成的token总数5. 如何对DeepSeek模型服务进行压测5.1 压测流程流程图否是确定压测目标选择压测工具编写压测脚本配置并发参数执行压测监控服务端指标收集并分析结果是否达到预期?输出压测报告5.2 常用压测工具对比工具特点适用场景LocustPython编写支持分布式实时Web界面灵活的自定义请求逻辑JMeter功能强大支持多种协议可生成图形报表传统Web服务压测wrk轻量级高性能HTTP压测但脚本能力弱简单API快速测试自定义脚本使用asyncioaiohttp手动实现需要精细控制请求内容时由于LLM API通常是非流式或流式响应推荐使用Locust进行定制化压测。5.3 使用Locust压测DeepSeek API5.3.1 安装Locustpipinstalllocust5.3.2 编写压测脚本locustfile.pyfromlocustimportHttpUser,task,betweenimportjsonclassDeepSeekUser(HttpUser):wait_timebetween(0.5,2)# 用户思考时间taskdefgenerate(self):payload{prompt:请用一句话介绍深度学习,max_tokens:50,temperature:0.8}headers{Content-Type:application/json}# 注意FastAPI服务运行在8000端口路径为/generatewithself.client.post(/generate,datajson.dumps(payload),headersheaders,catch_responseTrue)asresponse:ifresponse.status_code200:resultresponse.json()ifresultinresult:response.success()else:response.failure(Missing result field)else:response.failure(fStatus code{response.status_code})5.3.3 启动压测# 启动Locust Web界面默认8089端口locust-flocustfile.py--hosthttp://localhost:8000打开浏览器访问http://localhost:8089设置并发用户数如1050100、生成速率开始压测。5.3.4 监控服务端状态压测期间另开终端监控GPU使用情况# 实时GPU监控watch-n1nvidia-smi# 或者使用gpustat需安装gpustat-i1同时关注服务的CPU、内存占用htop。5.3.5 结果分析示例Locust会生成实时图表关键指标包括平均响应时间若模型推理需要5秒并发10用户时平均响应时间可能变成15秒排队效应。RPS单卡DeepSeek-V2-Lite在A100上约2-3 RPS生成128 tokens需根据硬件调整预期。失败率超过显存或请求超时会导致失败。优化建议如果压测中出现显存不足可使用vLLM或TGI框架优化推理吞吐如果延迟过高可以启用FlashAttention-2、PagedAttention等加速技术。6. 高级压测场景流式响应长文本如果模型服务支持流式输出Server-Sent Events可以使用aiohttp自定义脚本模拟并发用户并测量首token延迟TTFT。这里给出一个简单的asyncio并发示例importaiohttpimportasyncioimporttimeasyncdefsend_request(session,prompt,idx):starttime.perf_counter()asyncwithsession.post(http://localhost:8000/generate_stream,json{prompt:prompt})asresp:first_token_timeNoneasyncforlineinresp.content:ifnotfirst_token_time:first_token_timetime.perf_counter()print(f[{idx}] First token delay:{first_token_time-start:.3f}s)totaltime.perf_counter()-startprint(f[{idx}] Total time:{total:.3f}s)asyncdefmain():prompts[讲一个短故事]*50asyncwithaiohttp.ClientSession()assession:tasks[send_request(session,p,i)fori,pinenumerate(prompts)]awaitasyncio.gather(*tasks)asyncio.run(main())7. 总结与注意事项7.1 本文路线图回顾环境准备下载模型推理验证封装API压测评估优化部署7.2 重要提醒模型选择如果算力有限优先选择量化版本如DeepSeek-Coder-1.3B-Int8或使用Ollama。显存优化开启bitsandbytes4bit量化加载模型load_in_4bitTrue。压测安全首次压测从低并发开始如1,2,5,10避免瞬间打爆服务。生产部署正式服务建议使用vLLM或Text Generation InferenceTGI比原生Transformers吞吐量高5-10倍。7.3 扩展阅读DeepSeek官方技术文档vLLM高性能推理引擎Locust压测最佳实践通过本文你已经掌握了从零部署DeepSeek模型、提供服务接口以及压力测试的完整流程。动手实践时请根据实际硬件调整参数