Qwen3-4B-Thinking部署实战:Ubuntu/CentOS下vLLM环境一键初始化脚本
Qwen3-4B-Thinking部署实战Ubuntu/CentOS下vLLM环境一键初始化脚本1. 模型简介Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill是一个基于vLLM框架部署的文本生成模型该模型在约5440万个由Gemini 2.5 Flash生成的token上进行了训练。模型的主要目标是提炼出Gemini-2.5 Flash的行为模式、推理轨迹、输出风格以及核心知识。1.1 训练数据概览模型训练数据覆盖了多个专业领域具体分布如下领域提示数量学术645金融1048健康1720法律1193营销1350编程1930SEO775科学1435目标9912. 环境准备2.1 系统要求Ubuntu 20.04/22.04 或 CentOS 7/8NVIDIA GPU建议显存≥16GBPython 3.8CUDA 11.7cuDNN 8.52.2 一键初始化脚本以下脚本将自动完成vLLM环境的初始化工作#!/bin/bash # 检查系统版本 if [ -f /etc/os-release ]; then . /etc/os-release OS$ID VER$VERSION_ID else echo 无法检测系统版本 exit 1 fi # 安装基础依赖 if [ $OS ubuntu ]; then sudo apt update sudo apt install -y python3-pip python3-venv git nvidia-driver-535 elif [ $OS centos ]; then sudo yum install -y python3-pip python3-venv git sudo yum groupinstall -y Development Tools else echo 不支持的操作系统 exit 1 fi # 创建Python虚拟环境 python3 -m venv ~/qwen_env source ~/qwen_env/bin/activate # 安装vLLM及相关依赖 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117 pip install vllm chainlit # 克隆模型仓库 git clone https://github.com/QwenLM/Qwen-7B.git ~/Qwen-7B echo 环境初始化完成3. 模型部署3.1 启动vLLM服务使用以下命令启动模型服务source ~/qwen_env/bin/activate python -m vllm.entrypoints.api_server \ --model Qwen/Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.9 \ --port 8000 \ --log-file /root/workspace/llm.log3.2 验证服务状态可以通过以下命令检查服务是否正常运行cat /root/workspace/llm.log如果看到类似以下输出表示服务已成功启动INFO 07-10 15:30:21 api_server.py:150] Loading model weights... INFO 07-10 15:32:45 api_server.py:167] Model loaded successfully INFO 07-10 15:32:45 api_server.py:178] Starting API server on port 80004. 前端调用4.1 安装Chainlit如果尚未安装Chainlit可以使用以下命令安装pip install chainlit4.2 创建Chainlit应用创建一个名为app.py的文件内容如下import chainlit as cl import requests cl.on_message async def main(message: str): # 调用vLLM API response requests.post( http://localhost:8000/generate, json{ prompt: message, max_tokens: 1024, temperature: 0.7 } ) # 返回模型响应 await cl.Message( contentresponse.json()[text] ).send()4.3 启动Chainlit前端运行以下命令启动前端界面chainlit run app.py -w在浏览器中访问http://localhost:8000即可与模型交互。5. 使用示例5.1 学术领域提问输入请解释量子纠缠的基本原理及其在量子计算中的应用预期输出量子纠缠是量子力学中的一种现象指两个或多个量子系统之间存在强关联... 在量子计算中纠缠态被用于实现量子并行计算和量子隐形传态...5.2 编程问题求解输入用Python实现一个快速排序算法并解释其时间复杂度预期输出def quick_sort(arr): if len(arr) 1: return arr pivot arr[len(arr)//2] left [x for x in arr if x pivot] middle [x for x in arr if x pivot] right [x for x in arr if x pivot] return quick_sort(left) middle quick_sort(right) # 时间复杂度分析平均情况O(n log n)最坏情况O(n^2)6. 常见问题解决6.1 模型加载失败问题现象ERROR: Failed to load model weights解决方案检查GPU显存是否足够至少16GB确认CUDA和cuDNN版本兼容尝试降低--gpu-memory-utilization参数值6.2 Chainlit连接超时问题现象ConnectionError: HTTPConnectionPool(hostlocalhost, port8000)解决方案确认vLLM服务已正常启动检查防火墙设置确保8000端口开放在Chainlit代码中尝试使用127.0.0.1代替localhost7. 总结本文详细介绍了在Ubuntu/CentOS系统下使用vLLM部署Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill文本生成模型的完整流程包括环境初始化脚本的创建与使用vLLM服务的配置与启动Chainlit前端的集成与调用常见问题的解决方案该模型在多个专业领域表现出色特别适合需要高质量文本生成的应用场景。通过本文提供的一键初始化脚本用户可以快速搭建完整的模型服务环境。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。