[具身智能-332]：ollam工作原理

张

张建站

2026/5/8 9:19:32

10分钟阅读

Ollama 是一个专为在本地设备上简化大语言模型LLM部署与运行而设计的开源框架。其核心工作原理可以概括为客户端-服务端C/S架构并结合了高效的模型管理和推理技术。️ 核心架构Ollama 的整体架构由三个主要部分组成客户端 (Client)用户与 Ollama 交互的入口通常是通过命令行CLI。当你输入ollamarun 模型名等指令时就是通过客户端发起的。服务端 (Server)在后台运行的常驻进程默认为ollama serve负责处理所有客户端请求。它主要包含两个核心组件ollama-http-server一个 HTTP 服务器负责接收来自客户端的 API 请求如/api/generate,/api/chat并协调处理流程。llama.cpp底层的 C 推理引擎由服务端调用专门负责加载模型文件并执行实际的计算推理任务。通信协议客户端与服务端之间、以及服务端的 HTTP 服务器与llama.cpp推理引擎之间都通过 HTTP 协议进行通信确保了模块间的解耦和跨平台能力。⚙️ 工作流程以执行ollama run llama3命令为例其完整的工作流程如下模型准备客户端向服务端发起请求检查本地是否已存在名为llama3的模型。如果模型不存在服务端会自动从官方模型库如registry.ollama.ai下载模型文件。模型文件包括元数据manifests和实际权重数据blobs被存储在本地默认路径为$HOME/.ollama。交互推理模型加载后客户端会通过/api/chat或/api/generate等接口向服务端发送你的对话请求。服务端的ollama-http-server收到请求后会调用llama.cpp引擎也通过HTTP协议。llama.cpp加载模型对你的输入进行分词、计算并生成回复的 token 序列。生成的回复会经过服务端返回给客户端并支持流式Streaming输出让你能像看打字机效果一样实时看到回答的生成过程。关键技术Ollama 之所以能高效地在本地运行大模型依赖于以下几项关键技术llama.cpp推理引擎这是一个高度优化的 C 库支持 CPU 和 GPU 加速如 CUDA、AVX 指令集并能利用 KV 缓存等技术提升推理速度。GGUF 模型格式这是llama.cpp社区定义的模型文件格式它将模型权重、分词器、配置元数据等打包在一个文件中便于分发和管理。量化技术Ollama 广泛使用 int8、int4 等低精度量化技术能显著减小模型体积和运行时的内存占用使得在消费级硬件上运行大模型成为可能。Modelfile 机制类似于 Dockerfile用户可以通过一个Modelfile文件来定义和自定义模型例如设置系统提示词、调整温度参数或加载 LoRA 适配器然后通过ollama create命令生成一个定制化的新模型。

碧蓝航线Alas自动化脚本：24小时智能托管你的碧蓝航线游戏体验

碧蓝航线Alas自动化脚本：24小时智能托管你的碧蓝航线游戏体验【免费下载链接】AzurLaneAutoScript Azur Lane bot (CN/EN/JP/TW) 碧蓝航线脚本 | 无缝委托科研，全自动大世界项目地址: https://gitcode.com/gh_mirrors/az/AzurLaneAutoScript 碧…...

2026/4/11 0:23:49 阅读更多 →

ESP32以太网异步HTTPS客户端库详解

1. 项目概述AsyncHTTPSRequest_ESP32_Ethernet是一个专为 ESP32 系列微控制器（包括 ESP32、ESP32-S2、ESP32-S3、ESP32-C3）及 WT32_ETH01 以太网开发板设计的异步 HTTPS 客户端库。其核心目标是为资源受限的嵌入式设备提供一种高效、可靠且内存友好的方式…...

2026/4/11 0:22:30 阅读更多 →

MeteorSeed某

这个代码的核心功能是：基于输入词的长度动态选择反义词示例，并调用大模型生成反义词，体现了 “动态少样本提示（Dynamic Few-Shot Prompting）” 与 “上下文长度感知的示例选择” 的能力。 from langchain.prompts impo…...

2026/4/11 0:17:26 阅读更多 →

C语言RTOS多核协同失效真相：Cache一致性缺失、内存序乱序、GCC -O2优化陷阱——三重危机诊断工具链实战

更多请点击： https://intelliparadigm.com 第一章：C语言RTOS多核协同失效的系统性认知在嵌入式实时系统中，基于C语言开发的RTOS（如FreeRTOS、Zephyr或RT-Thread）常被移植至ARM Cortex-A/R系列或多核RISC-V SoC平台。…...

2026/5/8 3:27:44 阅读更多 →

Zotero GPT终极指南：用AI轻松读懂学术文献的研究态度与情感倾向

Zotero GPT终极指南：用AI轻松读懂学术文献的研究态度与情感倾向【免费下载链接】zotero-gpt GPT Meet Zotero. 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-gpt 你是否曾被海量学术文献淹没？是否在阅读论文时难以快速把握作者的研究立场…...

2026/5/8 1:39:53 阅读更多 →