granite-4.0-h-350m开源模型教程：Ollama部署+LangChain+LlamaIndex构建知识引擎

张

张建站

2026/5/9 0:48:17

10分钟阅读

granite-4.0-h-350m开源模型教程Ollama部署LangChainLlamaIndex构建知识引擎1. 开篇为什么选择granite-4.0-h-350m如果你正在寻找一个既轻量又强大的AI模型来构建自己的知识引擎granite-4.0-h-350m绝对值得关注。这个模型只有3.5亿参数却能在普通电脑上流畅运行支持12种语言包括中文和英文。最吸引人的是它专门针对知识处理场景进行了优化——无论是文档摘要、问答系统还是代码补全都能胜任。而且完全开源你可以自由地用于学习和研究。今天我就带你从零开始用Ollama部署这个模型再结合LangChain和LlamaIndex构建一个属于自己的智能知识引擎。2. 环境准备与快速部署2.1 安装Ollama首先需要安装Ollama这是目前最简单的大模型本地部署工具。根据你的操作系统选择安装方式# Linux/macOS 一键安装 curl -fsSL https://ollama.ai/install.sh | sh # Windows 用户直接下载安装包 # 访问 https://ollama.ai/download 下载exe文件安装完成后在终端输入ollama --version如果显示版本号就说明安装成功了。2.2 拉取granite-4.0-h-350m模型接下来拉取我们需要的模型ollama pull granite4:350m-h这个命令会自动下载模型文件大小约1.4GB。下载速度取决于你的网络状况一般需要几分钟到十几分钟。2.3 验证模型运行下载完成后测试一下模型是否正常工作ollama run granite4:350m-h然后在出现的提示符后输入你好介绍一下你自己如果看到模型用中文回复说明部署成功了。3. 基础功能体验3.1 直接与模型对话最简单的使用方式就是直接通过Ollama的Web界面与模型交互。打开浏览器访问http://localhost:11434你会看到Ollama的聊天界面。在这里你可以输入问题获取回答让模型总结文档内容进行多语言对话支持中英文切换尝试代码相关的任务3.2 通过API调用除了Web界面更常用的方式是通过API调用import requests import json def ask_granite(question): url http://localhost:11434/api/generate payload { model: granite4:350m-h, prompt: question, stream: False } response requests.post(url, jsonpayload) return response.json()[response] # 测试调用 answer ask_granite(用中文解释一下机器学习) print(answer)这个简单的Python脚本就能让你在程序中调用模型能力。4. 构建知识引擎LangChain集成4.1 安装必要库首先安装LangChain和相关依赖pip install langchain langchain-community ollama4.2 创建LangChain对话链from langchain.llms import OllamaLLM from langchain.chains import LLMChain from langchain.prompts import PromptTemplate # 初始化Ollama模型 llm OllamaLLM(modelgranite4:350m-h) # 创建提示模板 prompt_template 你是一个专业的知识助手。请根据以下问题提供准确、详细的回答。问题{question} 回答 prompt PromptTemplate( input_variables[question], templateprompt_template ) # 创建对话链 knowledge_chain LLMChain(llmllm, promptprompt) # 使用示例 question 请解释神经网络的基本原理 response knowledge_chain.run(question) print(response)4.3 添加记忆功能让模型能够记住对话历史from langchain.memory import ConversationBufferMemory memory ConversationBufferMemory() # 带记忆的对话链 conversation_chain LLMChain( llmllm, promptprompt, memorymemory, verboseTrue ) # 连续对话 response1 conversation_chain.run(什么是深度学习) response2 conversation_chain.run(它和机器学习有什么区别)5. 文档处理LlamaIndex整合5.1 安装LlamaIndexpip install llama-index python-dotenv5.2 构建文档索引假设你有一些技术文档想要让模型学习from llama_index import VectorStoreIndex, SimpleDirectoryReader from llama_index.llms import Ollama # 设置Ollama作为LLM llm Ollama(modelgranite4:350m-h) # 读取文档假设你的文档在./docs文件夹中 documents SimpleDirectoryReader(./docs).load_data() # 创建向量索引 index VectorStoreIndex.from_documents( documents, llmllm ) # 创建查询引擎 query_engine index.as_query_engine()5.3 基于文档的问答现在你可以针对你的文档内容提问了# 查询基于文档的问题 response query_engine.query(根据文档最佳实践是什么) print(response)5.4 完整的知识引擎示例import os from llama_index import VectorStoreIndex, SimpleDirectoryReader, ServiceContext from llama_index.llms import Ollama from llama_index.query_engine import RetrieverQueryEngine class KnowledgeEngine: def __init__(self, data_path./docs): self.llm Ollama(modelgranite4:350m-h) self.service_context ServiceContext.from_defaults(llmself.llm) # 加载并索引文档 documents SimpleDirectoryReader(data_path).load_data() self.index VectorStoreIndex.from_documents( documents, service_contextself.service_context ) def query(self, question): query_engine self.index.as_query_engine() return query_engine.query(question) def chat(self, message): # 简单对话功能 return self.llm.complete(message) # 使用示例 engine KnowledgeEngine(./my_documents) result engine.query(请总结文档中的主要内容) print(result)6. 实战应用场景6.1 技术文档问答系统你可以用这个组合搭建一个内部技术文档问答系统。只需要把公司文档放在指定文件夹员工就能用自然语言查询任何技术问题。6.2 个人知识管理如果你有很多学习笔记、研究论文或个人文档可以用这个系统来快速查找和总结信息。6.3 代码辅助工具granite-4.0-h-350m在代码任务上表现不错你可以用它来解释复杂代码段生成代码注释提供编程建议7. 性能优化建议7.1 调整模型参数# 优化性能的参数设置 llm OllamaLLM( modelgranite4:350m-h, temperature0.1, # 降低随机性提高确定性 top_p0.9, num_predict512 # 控制生成长度 )7.2 批量处理文档如果需要处理大量文档建议分批处理from llama_index import ServiceContext # 批量处理设置 service_context ServiceContext.from_defaults( llmllm, chunk_size512, # 调整块大小 chunk_overlap50 # 块重叠大小 )7.3 缓存优化启用缓存可以显著提升重复查询的速度import os os.environ[LLAMA_INDEX_CACHE_DIR] ./cache # 现在所有的查询结果都会被缓存8. 常见问题解决模型响应慢怎么办检查电脑资源使用情况减少同时运行的其他程序调整生成长度参数中文回答效果不好尝试用英文提问可能获得更准确的回答在提示词中明确要求用中文回答内存不足granite-4.0-h-350m只需要4-6GB内存如果还是不够可以尝试量化版本文档索引太慢减少单次处理的文档数量使用更小的chunk_size9. 总结通过Ollama部署granite-4.0-h-350m再结合LangChain和LlamaIndex我们成功构建了一个功能完整的本地知识引擎。这个方案有几个明显优势轻量高效整个系统可以在普通笔记本电脑上运行不需要昂贵的GPU完全本地所有数据处理都在本地保证数据隐私和安全灵活可扩展你可以根据需要添加更多功能模块多语言支持特别是对中文的良好支持适合中文环境使用最重要的是这一切都是开源的你可以完全掌控自己的AI系统。无论是个人学习还是企业内部使用这都是一个很好的起点。建议你从简单的文档问答开始逐步探索更多应用场景。这个组合的潜力很大等待你去发掘。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

SQL数据操作完全指南：增删改查实战详解（详细代码注释）

前言上篇讲了SQL查询的10个核心语句，这篇讲SQL的另一半：数据操作。查询（SELECT）是"看数据"，而增删改（INSERT/UPDATE/DELETE）是"动数据"。很多同学学了SELECT就以为自己会SQ…...

2026/4/13 9:12:13 阅读更多 →

大模型智能体（agent）简易流程介绍勾

引言在现代软件开发中，性能始终是衡量应用质量的重要指标之一。无论是企业级应用、云服务还是桌面程序，性能优化都能显著提升用户体验、降低基础设施成本并增强系统的可扩展性。对于使用 C# 开发的应用程序而言，性能优化涉及多个层面&#x…...

2026/4/13 9:08:32 阅读更多 →

曦智科技港股聆讯通过，全球AI光算力第一股诞生在即

雷递网乐天 4月12日当全球GPU厂商仍在与“电”的效率边界周旋时，一家公司已经悄然在“光”领域取得突破，并将其带入资本市场视野。4月12日，曦智科技于港交所更新了聆讯后资料集，意味着公司已顺利通过港交所上市聆讯，拟…...

2026/5/8 1:27:22 阅读更多 →

C语言RTOS多核协同失效真相：Cache一致性缺失、内存序乱序、GCC -O2优化陷阱——三重危机诊断工具链实战

更多请点击： https://intelliparadigm.com 第一章：C语言RTOS多核协同失效的系统性认知在嵌入式实时系统中，基于C语言开发的RTOS（如FreeRTOS、Zephyr或RT-Thread）常被移植至ARM Cortex-A/R系列或多核RISC-V SoC平台。…...

2026/5/8 3:27:44 阅读更多 →

Zotero GPT终极指南：用AI轻松读懂学术文献的研究态度与情感倾向

Zotero GPT终极指南：用AI轻松读懂学术文献的研究态度与情感倾向【免费下载链接】zotero-gpt GPT Meet Zotero. 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-gpt 你是否曾被海量学术文献淹没？是否在阅读论文时难以快速把握作者的研究立场…...

2026/5/8 1:39:53 阅读更多 →