Qwen3.5-9B-AWQ-4bit Ubuntu服务器部署详解:从系统安装到服务上线
Qwen3.5-9B-AWQ-4bit Ubuntu服务器部署详解从系统安装到服务上线1. 前言为什么选择Qwen3.5-9B-AWQ-4bit如果你正在寻找一个性能出色但资源占用相对较小的大语言模型Qwen3.5-9B-AWQ-4bit绝对值得考虑。这个经过4bit量化的版本在保持90%以上原始模型能力的同时显存需求大幅降低非常适合在单卡GPU服务器上部署。本教程将带你从零开始在一台干净的Ubuntu服务器上完成全套部署流程。即使你是Linux新手只要跟着步骤操作也能在1-2小时内完成部署并让模型服务正常运行。2. 准备工作系统环境检查2.1 硬件要求在开始之前请确保你的服务器满足以下最低配置GPUNVIDIA显卡推荐RTX 3090/4090或A100至少24GB显存内存64GB以上存储至少100GB可用空间SSD推荐系统Ubuntu 20.04/22.04 LTS2.2 系统初始化如果你使用的是全新安装的Ubuntu系统建议先执行以下基础配置# 更新系统包 sudo apt update sudo apt upgrade -y # 安装基础工具 sudo apt install -y curl wget git vim tmux htop # 设置时区可选 sudo timedatectl set-timezone Asia/Shanghai3. 安装必备软件环境3.1 安装NVIDIA驱动和CUDA确保你的GPU驱动正确安装# 检查GPU识别情况 nvidia-smi如果未安装驱动推荐使用官方方式安装# 添加官方PPA sudo add-apt-repository ppa:graphics-drivers/ppa -y sudo apt update # 安装推荐驱动会自动选择最新稳定版 sudo ubuntu-drivers autoinstall # 安装CUDA Toolkit以11.7为例 wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/3bf863cc.pub sudo add-apt-repository deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ / sudo apt update sudo apt install -y cuda-11-7安装完成后记得将CUDA加入环境变量echo export PATH/usr/local/cuda-11.7/bin:$PATH ~/.bashrc echo export LD_LIBRARY_PATH/usr/local/cuda-11.7/lib64:$LD_LIBRARY_PATH ~/.bashrc source ~/.bashrc3.2 安装Docker和NVIDIA Container Toolkit# 安装Docker sudo apt install -y docker.io sudo systemctl enable --now docker # 安装NVIDIA Container Toolkit distribution$(. /etc/os-release;echo $ID$VERSION_ID) \ curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \ curl -fsSL https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | \ sed s#deb https://#deb [signed-by/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g | \ sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt update sudo apt install -y nvidia-container-toolkit sudo nvidia-ctk runtime configure --runtimedocker sudo systemctl restart docker验证安装sudo docker run --rm --gpus all nvidia/cuda:11.7.1-base-ubuntu20.04 nvidia-smi4. 部署Qwen3.5-9B-AWQ-4bit模型4.1 拉取星图镜像# 登录星图镜像仓库需要提前注册账号 docker login registry.cn-hangzhou.aliyuncs.com # 拉取Qwen3.5-9B-AWQ-4bit镜像 docker pull registry.cn-hangzhou.aliyuncs.com/csdn_mirror/qwen3.5-9b-awq:latest4.2 准备模型数据目录# 创建模型存储目录 sudo mkdir -p /data/models/qwen3.5-9b-awq sudo chown -R $USER:$USER /data/models4.3 启动模型容器docker run -d --gpus all \ --name qwen3.5-9b-awq \ -p 8000:8000 \ -v /data/models/qwen3.5-9b-awq:/app/models \ registry.cn-hangzhou.aliyuncs.com/csdn_mirror/qwen3.5-9b-awq:latest启动后可以通过日志查看进度docker logs -f qwen3.5-9b-awq首次启动会自动下载模型权重文件可能需要较长时间约30分钟到1小时取决于网络速度。5. 系统配置优化5.1 防火墙设置# 允许8000端口 sudo ufw allow 8000/tcp sudo ufw enable5.2 配置Systemd服务为了让模型服务在服务器重启后自动运行我们可以创建一个systemd服务sudo vim /etc/systemd/system/qwen3.5-9b-awq.service添加以下内容[Unit] DescriptionQwen3.5-9B-AWQ-4bit Model Service Afterdocker.service Requiresdocker.service [Service] Restartalways ExecStart/usr/bin/docker start -a qwen3.5-9b-awq ExecStop/usr/bin/docker stop -t 30 qwen3.5-9b-awq [Install] WantedBymulti-user.target启用并启动服务sudo systemctl daemon-reload sudo systemctl enable qwen3.5-9b-awq sudo systemctl start qwen3.5-9b-awq6. 测试与验证6.1 检查服务状态# 检查容器运行状态 docker ps # 检查服务日志 docker logs qwen3.5-9b-awq6.2 发送测试请求curl -X POST http://localhost:8000/v1/chat/completions \ -H Content-Type: application/json \ -d { model: qwen3.5-9b-awq, messages: [ { role: user, content: 请用简单的语言解释什么是量子计算 } ] }如果一切正常你应该会得到一个结构化的JSON响应包含模型生成的回答。7. 常见问题解决7.1 显存不足问题如果遇到CUDA out of memory错误可以尝试减少并发请求数在启动容器时添加环境变量限制显存使用-e MAX_GPU_MEMORY20GB7.2 端口冲突问题如果8000端口已被占用可以在启动容器时修改映射端口-p 8001:80007.3 模型加载失败如果模型加载失败可以尝试检查/data/models目录权限手动下载模型权重文件到/data/models/qwen3.5-9b-awq目录删除容器后重新创建8. 总结通过本教程我们完成了从零开始在Ubuntu服务器上部署Qwen3.5-9B-AWQ-4bit模型的全过程。这套方案有几个明显优势首先是部署简单基本上按照步骤操作就能完成其次是资源占用相对较小适合大多数单卡GPU服务器最后是维护方便通过systemd实现了服务自启动和自动恢复。实际使用中建议根据业务需求调整模型参数比如温度(temperature)和top_p等参数会影响生成结果的质量和多样性。另外如果预期会有大量并发请求可以考虑在前端加一个负载均衡器。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。