本地搭建LLM知识库指南（极其详细），从入门到精通，收藏这一篇就够了！

张

张建站

2026/5/9 11:01:32

10分钟阅读

Andrej Karpathy 前不久在 X 上分享了他用 LLM 构建个人知识库的工作流数据摄取raw/目录→ LLM 编译为 wiki → QA → 输出 → linting形成自我增强的知识库闭环。核心观点是当 wiki 足够大~100 篇、40 万词时直接向 LLM Agent 提问其效果不亚于复杂的 RAG 方案且整个 wiki 由 LLM 维护人类很少直接编辑。大家都知道最快出东西的是Graphify,我在ClaudeCode和OpenClaw上尝试的用了用还是蛮丝滑的,准备集成到项目和产品中去。不过就咱们手头现有的东西其实也能很好的“攒”一个版本出来并且还更通用尤其是对不是搞技术的小伙伴们。本人通过摸索基于 Karpathy 的方法通过如下工具栈浏览器Obsidian插件 Obsidian Claudian将 Claude Code 集成进 Obsidian 的插件在本地完整实现一个类似的知识库。全程本地运行数据完全自主可控。这里跟小伙伴们分享一下具体实现步骤1. 安装 Obsidian 并创建 Vault下载并安装 Obsidian[1]启动后新建一个 Vault建议命名为MyKnowledgeBase。MyKnowledgeBase/2. 安装浏览器插件 Obsidian Web Clipper在浏览器中安装 Obsidian Web Clipper[2] 扩展支持 Chrome、Firefox 等主流浏览器。安装后在浏览器工具栏找到插件图标点击设置授权访问你的 Vault 地址。3. 通过浏览器收藏感兴趣的文章以后在浏览器中浏览到任何值得留存的文章点击 Obsidian Web Clipper 图标选择保存路径将其存入 Vault 的/Clippings目录MyKnowledgeBase/└── Clippings/ └── {文章标题}.mdWeb Clipper 会自动将网页正文提取为 Markdown并下载文章中的图片到本地。4. 安装 Claude Code 并配置大模型本地安装 Claude Code CLI# macOS/Linuxbrew install anthropic/cli/claude# 或通过 npmnpm install -g anthropic-ai/claude-code安装后运行claude auth完成认证配置。关于模型提供者的选择Claude Code 默认使用 Anthropic API也可以配置 OpenRouter、Kimi 等兼容接口。5. 安装并配置 Claudian 插件Claudian[3] 是一个将 AI 编程助手Claude Code、Codex 等嵌入 Obsidian 的插件Vault 本身成为 Agent 的工作目录文件读写、搜索、bash、多步工作流开箱即用。目前 GitHub ⭐ 6.9k。安装方式推荐 BRAT在 Obsidian 中安装BRAT插件Obsidian Community Plugins 搜索 “BRAT”启用 BRAT 后打开 BRAT 设置 → 点击 “Add Beta plugin”输入https://github.com/YishenTu/claudian点击 “Add Plugin”BRAT 会自动安装并持续更新 Claudian在 Settings → Community plugins 中启用 “Claudian”另一种方式手动安装从最新 Release[4] 下载main.js、manifest.json、styles.css在 Vault 中创建目录.obsidian/plugins/claudian/将文件放入在 Obsidian 中启用插件测试 Claudian 是否正常工作在 Obsidian 侧边栏打开 Claudian 聊天窗口点击功能区 ribbon 图标或用命令面板搜索 “Claudian”在输入框中输入在当前 Obsidian 的 vault 下创建一个新的 md 文件内容写入 Hello guys, Claudian is now working.Claudian 会调用 Claude Code在 Vault 中创建文件并写入内容说明集成成功故障排除如果遇到 “Claude CLI not found”在 Obsidian Settings → Claudian → Advanced → Claude CLI path 中手动填入claude的路径macOS/Linux 下运行which claude查看路径。6. 创建目录结构并初始化 CLAUDE.md(关键)在 Vault 根目录创建以下结构MyKnowledgeBase/├── CLAUDE.md├── Clippings/ # 原始剪藏由 Web Clipper 填充├── wiki/│ ├── INDEX.md # 知识库入口稍后由 AI 初始化│ └── articles/ # AI 生成的摘要文章└── outputs/ # 查询结果存放创建CLAUDE.md写入知识库规则# Knowledge Base Schema## 快速开始首先打开[[wiki/INDEX.md]]## 三种使用方式1. 浏览知识打开 INDEX.md → 选择主题 → 阅读文章2. 搜索知识向 AI 提问 → AI 读取 INDEX.md 理解结构 → 综合回答存入 outputs/3. 添加新内容保存到 Clippings/ → AI 编译到 wiki/articles/ → INDEX.md 自动更新## 文件结构vault/├── Clippings/ # 原始数据├── wiki/│ ├── INDEX.md # 知识库入口│ └── articles/ # AI 摘要文章└── outputs/ # 查询结果## 核心规则- 优先使用 wiki不需要复杂 RAG- 从 [[wiki/INDEX.md]] 开始- 将新内容添加到 Clippings/- 手动编辑 wiki/articles/ 中的文章由 AI 编译产生7. 通过Claudian初始化wiki/INDEX.md在 Claudian 窗口输入指令让 AI 根据 CLAUDE.md 的描述初始化wiki/INDEX.md请根据 CLAUDE.md 的描述在 wiki/ 目录下初始化 INDEX.md内容包含1. WIKI 知识库导航顶部描述2. 快速导航按主题浏览、快速链接、提出问题3. 知识库规模当前为 0 篇4. 按主题浏览占位结构主题为开发工具、大模型、智能体、世界模型AI 会生成一个符合 CLAUDE.md 规范的wiki/INDEX.md初始内容。8. 日常使用当有新内容加入 Clippings 时这是整个工作流的核心闭环。在 Claudian 中输入请检查 Clippings/ 目录下是否有新的文章。如果有请为每篇新文章生成摘要包含 frontmattertitle、source、created、description、tags、references保存到 wiki/articles/ 目录文件名用中文命名。然后更新 wiki/INDEX.md 中的「知识库规模」和「按主题浏览」部分。AI 会读取Clippings/中的新文章生成带references字段的摘要写入wiki/articles/更新wiki/INDEX.md的规模和目录结构9. 知识查询使用知识库内容创作在 Claudian 窗口直接提问我想了解 Code-as-Policy 是什么请从 wiki/INDEX.md 开始搜索相关文章并给我一个综合回答。AI 会优先读取INDEX.md理解知识库结构再搜索相关文章给出综合答案。总结本文介绍了如何利用 Obsidian Claudian 在本地完整复现 Karpathy 的 LLM 知识库工作流Web Clipper 收集资料 → AI 编译为 wiki 摘要 → 直接对话知识库 → 输出结果回流进 wiki。整个过程数据完全本地存储LLM 全程主导知识库的维护和查询人类的角色从「内容编辑者」转变为「知识提出者」。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

手把手教你部署DeepSeek-R1-Distill-Qwen-7B：Ollama镜像小白友好教程

手把手教你部署DeepSeek-R1-Distill-Qwen-7B：Ollama镜像小白友好教程 1. 为什么选择DeepSeek-R1-Distill-Qwen-7B DeepSeek-R1-Distill-Qwen-7B是一个经过优化的推理模型，特别适合需要高效文本生成能力的场景。这个模型基于Qwen架构，通过蒸…...

2026/5/9 10:58:09 阅读更多 →

AlwaysOnTop：让关键窗口永远置顶的Windows效率神器

AlwaysOnTop：让关键窗口永远置顶的Windows效率神器【免费下载链接】AlwaysOnTop Make a Windows application always run on top 项目地址: https://gitcode.com/gh_mirrors/al/AlwaysOnTop 在Windows多任务处理中，你是否经常需要频繁切换窗口&a…...

2026/4/13 7:33:33 阅读更多 →

C++高性能推理框架集成忍者像素绘卷：天界画坊模型实战

C高性能推理框架集成忍者像素绘卷：天界画坊模型实战 1. 工业级像素艺术生成需求在游戏开发和数字艺术创作领域，像素风格内容的需求持续增长。传统手工绘制像素画需要专业美术人员投入大量时间，而忍者像素绘卷：天界画坊模型能够…...

2026/4/13 7:30:08 阅读更多 →

C语言RTOS多核协同失效真相：Cache一致性缺失、内存序乱序、GCC -O2优化陷阱——三重危机诊断工具链实战

更多请点击： https://intelliparadigm.com 第一章：C语言RTOS多核协同失效的系统性认知在嵌入式实时系统中，基于C语言开发的RTOS（如FreeRTOS、Zephyr或RT-Thread）常被移植至ARM Cortex-A/R系列或多核RISC-V SoC平台。…...

2026/5/8 3:27:44 阅读更多 →

Zotero GPT终极指南：用AI轻松读懂学术文献的研究态度与情感倾向

Zotero GPT终极指南：用AI轻松读懂学术文献的研究态度与情感倾向【免费下载链接】zotero-gpt GPT Meet Zotero. 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-gpt 你是否曾被海量学术文献淹没？是否在阅读论文时难以快速把握作者的研究立场…...

2026/5/8 1:39:53 阅读更多 →