Phi-3-mini-4k-instruct-gguf部署教程:Ubuntu 22.04 + vLLM 0.6.3 + Chainlit 1.2.0兼容配置
Phi-3-mini-4k-instruct-gguf部署教程Ubuntu 22.04 vLLM 0.6.3 Chainlit 1.2.0兼容配置1. 环境准备与模型介绍1.1 系统要求在开始部署前请确保您的Ubuntu 22.04系统满足以下要求至少16GB内存推荐32GB50GB可用磁盘空间Python 3.9或更高版本NVIDIA显卡推荐RTX 3090或更高并安装最新驱动CUDA 11.8或更高版本1.2 Phi-3-mini-4k-instruct模型特点Phi-3-Mini-4K-Instruct是一个38亿参数的轻量级开源模型具有以下优势支持4K上下文长度训练数据包含高质量合成数据和过滤后的公开网站数据经过监督微调和直接偏好优化在常识、语言理解、数学、代码等基准测试中表现优异2. 基础环境配置2.1 安装Python虚拟环境sudo apt update sudo apt install python3-venv python3 -m venv phi3_env source phi3_env/bin/activate2.2 安装CUDA和cuDNN确保已正确安装NVIDIA驱动后sudo apt install nvidia-cuda-toolkit2.3 安装基础依赖pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install transformers3. vLLM 0.6.3部署3.1 安装vLLMpip install vllm0.6.33.2 下载模型权重git clone https://huggingface.co/microsoft/Phi-3-mini-4k-instruct-gguf cd Phi-3-mini-4k-instruct-gguf3.3 启动vLLM服务python -m vllm.entrypoints.api_server \ --model microsoft/Phi-3-mini-4k-instruct-gguf \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.93.4 验证服务运行curl http://localhost:8000/v1/models应返回类似以下响应{ object: list, data: [{id: Phi-3-mini-4k-instruct-gguf, object: model}] }4. Chainlit 1.2.0前端集成4.1 安装Chainlitpip install chainlit1.2.04.2 创建前端应用新建app.py文件import chainlit as cl from openai import AsyncOpenAI client AsyncOpenAI( base_urlhttp://localhost:8000/v1, api_keyno-key-required ) cl.on_message async def main(message: cl.Message): response await client.chat.completions.create( modelPhi-3-mini-4k-instruct-gguf, messages[{role: user, content: message.content}], temperature0.7, ) await cl.Message(contentresponse.choices[0].message.content).send()4.3 启动Chainlit应用chainlit run app.py -w应用将在http://localhost:8000启动5. 常见问题解决5.1 模型加载失败如果遇到模型加载问题尝试export PYTORCH_CUDA_ALLOC_CONFmax_split_size_mb:1285.2 内存不足减小--gpu-memory-utilization参数值python -m vllm.entrypoints.api_server \ --model microsoft/Phi-3-mini-4k-instruct-gguf \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.75.3 端口冲突修改默认端口python -m vllm.entrypoints.api_server --port 80016. 总结通过本教程您已经成功在Ubuntu 22.04系统上部署了Phi-3-mini-4k-instruct-gguf模型并使用vLLM 0.6.3和Chainlit 1.2.0构建了完整的文本生成应用。这套方案具有以下优势轻量高效38亿参数模型在消费级GPU上即可流畅运行易于扩展vLLM提供高性能推理后端交互友好Chainlit提供简洁的Web界面兼容性强支持标准OpenAI API协议建议定期检查模型更新以获得更好的性能和功能支持。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。