Windows Server 2019 上构建 Ollama + Qwen:4b 的本地AI服务网关

张

张建站

2026/4/28 8:20:21

10分钟阅读

Windows Server 2019 上构建 Ollama + Qwen:4b 的本地AI服务网关

1. 环境准备与基础配置在Windows Server 2019上部署AI服务网关首先需要搭建好基础运行环境。我实测下来最稳定的组合是Ollama 0.1.20版本搭配Qwen:4b模型这个配置对硬件要求相对友好16GB内存的服务器就能流畅运行。1.1 安装Ollama服务端直接从官网下载Windows版本的Ollama安装包建议选择稳定版而非最新测试版。安装过程中有个关键细节默认安装路径会带空格Program Files这在后续调用时容易出问题。我的经验是手动指定安装目录为C:\Ollama这样的无空格路径。安装完成后打开cmd验证是否成功ollama --version如果返回版本号说明安装正确。这里有个常见坑点某些安全软件会拦截ollama.exe的网络请求记得在防火墙中添加白名单。1.2 配置系统环境变量为了让服务稳定运行需要设置两个关键环境变量OLLAMA_MODELS指向模型存储目录例如C:\Ollama\modelsOLLAMA_HOST指定服务监听地址0.0.0.0:11434配置方法setx OLLAMA_MODELS C:\Ollama\models /M setx OLLAMA_HOST 0.0.0.0:11434 /M设置完成后必须重启服务器才能生效。我遇到过三次因为没重启导致配置不生效的情况这点要特别注意。1.3 下载Qwen:4b模型在已配置好环境变量的前提下运行ollama pull qwen:4b这个4b参数的模型约占用8GB磁盘空间下载速度取决于网络环境。有个加速技巧可以先在Linux机器上用aria2多线程下载再迁移到Windows服务器。实测下载时间能从2小时缩短到20分钟。2. 服务启动与验证2.1 启动Ollama服务以管理员身份运行CMD执行ollama serve成功启动后会看到类似输出INFO[0000] Listening on [::]:11434此时服务已在后台运行。建议用以下命令测试模型是否加载成功ollama run qwen:4b 你好如果返回中文应答说明模型运转正常。2.2 配置后台服务为了让服务在服务器重启后自动运行需要创建计划任务打开任务计划程序创建基本任务触发器设为计算机启动时操作选择启动程序路径填写ollama.exe的完整路径在参数栏填写serve我习惯额外添加一个每日重启任务这样可以定期释放内存。具体做法是在触发器中添加每天凌晨3点的执行计划。3. Nginx反向代理配置3.1 安装Nginx 1.27推荐使用官方Mainline版本解压到C:\nginx-1.27.0目录。测试启动cd C:\nginx-1.27.0 start nginx访问http://localhost应能看到欢迎页面。3.2 关键配置修改修改conf/nginx.conf在http块内添加server { listen 80; server_name your_server_ip; location /api/ { proxy_pass http://127.0.0.1:11434; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; } }这里有个性能优化点在http块顶部添加worker_processes auto; events { worker_connections 1024; use epoll; }可以显著提升并发处理能力。3.3 安全加固配置建议添加以下安全措施限制访问IPallow 192.168.1.0/24; deny all;启用HTTPS需要准备SSL证书listen 443 ssl; ssl_certificate server.crt; ssl_certificate_key server.key;添加基础认证auth_basic Restricted; auth_basic_user_file conf/htpasswd;4. 系统优化与监控4.1 性能调优参数在Ollama启动参数中添加set OLLAMA_NUM_PARALLEL4 set OLLAMA_MAX_LOADED_MODELS2这可以控制并行请求数和内存占用。对于4核8G的服务器建议保持这个配置。4.2 资源监控方案推荐使用Windows自带的性能监视器添加以下计数器Process(ollama)% Processor TimeProcess(ollama)\Working SetMemory\Available MBytes可以设置阈值告警当内存使用超过80%时自动重启服务。4.3 日志管理技巧修改nginx.conf中的日志格式log_format main $remote_addr - $remote_user [$time_local] $request $status $body_bytes_sent $http_referer $http_user_agent $request_time; access_log logs/access.log main buffer32k flush5m;这样会记录更详细的访问信息且采用缓冲写入减少磁盘IO压力。5. 常见问题排查5.1 服务无法启动先检查端口冲突netstat -ano | findstr 11434如果端口被占用可以修改OLLAMA_HOST变量换用其他端口。5.2 模型加载失败查看ollama日志type C:\Users\%USERNAME%\.ollama\logs\ollama.log常见错误是磁盘空间不足或模型文件损坏重新pull模型即可。5.3 Nginx 502错误在nginx配置中添加proxy_connect_timeout 300s; proxy_send_timeout 300s; proxy_read_timeout 300s;这是因为大模型响应时间较长需要调整超时阈值。6. 进阶应用场景6.1 多模型切换方案通过nginx的location规则实现location /api/qwen { proxy_pass http://127.0.0.1:11434/api/generate; proxy_set_header Model qwen:4b; } location /api/llama { proxy_pass http://127.0.0.1:11434/api/generate; proxy_set_header Model llama2; }这样客户端可以通过不同路径访问不同模型。6.2 负载均衡配置当单机性能不足时可以部署多台Ollama实例在nginx中配置upstream ollama_cluster { server 192.168.1.101:11434; server 192.168.1.102:11434; server 192.168.1.103:11434; } location /api/ { proxy_pass http://ollama_cluster; }配合健康检查机制可以实现高可用架构。6.3 请求限流策略防止API被滥用limit_req_zone $binary_remote_addr zoneapi_limit:10m rate5r/s; location /api/ { limit_req zoneapi_limit burst10 nodelay; proxy_pass http://127.0.0.1:11434; }这会限制每个IP每秒最多5个请求。

怎样高效使用PCB分析工具：硬件工程师的实战指南

怎样高效使用PCB分析工具：硬件工程师的实战指南【免费下载链接】OpenBoardView View .brd files 项目地址: https://gitcode.com/gh_mirrors/op/OpenBoardView OpenBoardView是一款功能强大的开源PCB文件查看器，专为硬件工程师和维修技术人员设计…...

2026/4/11 12:44:54 阅读更多 →

春联生成模型-中文-base：开箱即用Web界面，GPU加速，1-2秒快速生成

春联生成模型-中文-base：开箱即用Web界面，GPU加速，1-2秒快速生成 1. 产品概述：AI赋能的传统春联创作春节贴春联是中国延续千年的文化传统，但创作一副对仗工整、寓意吉祥的春联对大多数人来说并非易事。春联生成模型…...

2026/4/28 8:17:42 阅读更多 →

如何永久保存B站缓存视频：m4s-converter零配置解决方案

如何永久保存B站缓存视频：m4s-converter零配置解决方案【免费下载链接】m4s-converter 一个跨平台小工具，将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾经有过这样的经历&am…...

2026/4/11 12:34:14 阅读更多 →

Arm Cortex-A520AE核心架构与优化实战解析

1. Arm Cortex-A520AE核心架构深度解析在汽车电子和工业控制领域，处理器的高效性与可靠性同样重要。Cortex-A520AE作为Armv9.2-A架构下的安全增强型核心，采用独特的双发射流水线设计，在保持低功耗的同时实现了可预测的实时性能。我曾参与过基…...

2026/4/28 1:18:38 阅读更多 →

015、使用AutoGen框架搭建多Agent对话系统

015、使用AutoGen框架搭建多Agent对话系统告别单打独斗，让多个智能体通过协作与对话，共同解决复杂任务。前言在上一篇《多Agent系统入门：协作与竞争的基础模型》中，我们探讨了多智能体系统的核心概念、基础架构以及简单的协作模式。你可能已经意识到，手动协调多个Agen…...

2026/4/28 3:08:33 阅读更多 →

大模型量化实战评测：GPTQ、GGUF、AWQ 在显存、速度与精度上的真实表现

1. 大模型量化技术入门：为什么我们需要量化？ 如果你尝试在消费级显卡上运行大语言模型，大概率会遇到显存不足的报错。比如用16GB显存的RTX 4080直接加载Qwen1.5-7B模型时，系统会无情地提示"CUDA out of memory"。这就是…...

2026/4/27 23:58:30 阅读更多 →

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具

Display Driver Uninstaller终极指南：彻底清理显卡驱动的专业工具【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drivers-u…...

2026/4/26 0:08:05 阅读更多 →