OpenClaw技能扩展指南：为Phi-3-vision-128k-instruct添加自定义图文处理模块

张

张建站

2026/5/13 22:51:38

10分钟阅读

OpenClaw技能扩展指南为Phi-3-vision-128k-instruct添加自定义图文处理模块1. 为什么需要自定义图文处理技能上周我在整理团队项目文档时发现一个痛点我们使用Phi-3-vision-128k-instruct模型生成的图文报告总是散落在不同文件夹需要手动归类到对应项目的assets目录。更麻烦的是模型输出的图片描述文本和实际文件是分离的每次都要人工建立关联。这正是OpenClaw技能生态的价值所在——通过开发自定义技能模块可以让AI助手直接理解并处理这类特定需求。我决定基于现有的file-processor技能进行扩展使其能够自动识别Phi-3-vision模型输出的图文组合按项目名称创建结构化目录建立图片与描述文本的元数据关联这个案例展示了OpenClaw在垂直场景下的灵活扩展能力不同于通用AI助手的大而全我们可以打造真正贴合自身工作流的小而美解决方案。2. 基础环境准备2.1 安装核心组件首先确保已部署Phi-3-vision-128k-instruct模型服务。我使用的是vLLM部署的版本API地址为http://localhost:8000/v1。接着通过ClawHub安装基础文件处理技能clawhub install file-processor openclaw plugins list | grep file-processor # 验证安装如果遇到权限问题可以尝试加上--unsafe-perm参数clawhub install file-processor --unsafe-perm2.2 创建技能开发目录OpenClaw的技能需要遵循特定目录结构mkdir phi3-vision-processor cd phi3-vision-processor touch package.json skill.js README.md关键文件说明package.json定义技能元数据和依赖skill.js核心逻辑实现README.md使用文档3. 适配Phi-3-vision的图片处理逻辑3.1 解析模型输出格式Phi-3-vision-128k-instruct的图文输出通常包含以下结构{ content: [ { type: text, text: 这张图片展示了... }, { type: image_url, image_url: { url: data:image/png;base64,... } } ] }我们需要在skill.js中编写解析逻辑const { BaseSkill } require(openclaw); const fs require(fs); const path require(path); class Phi3VisionProcessor extends BaseSkill { async processPhi3Output(output, projectName) { const projectDir path.join(process.cwd(), projects, projectName); if (!fs.existsSync(projectDir)) { fs.mkdirSync(projectDir, { recursive: true }); } let imageCounter 1; const metaData []; for (const item of output.content) { if (item.type image_url) { const base64Data item.image_url.url.split(,)[1]; const buffer Buffer.from(base64Data, base64); const imagePath path.join(projectDir, image_${imageCounter}.png); fs.writeFileSync(imagePath, buffer); metaData.push({ image: image_${imageCounter}.png, text: // 将在下一步填充 }); imageCounter; } } // 关联文本描述 let textIndex 0; for (const item of output.content) { if (item.type text textIndex metaData.length) { metaData[textIndex].text item.text; textIndex; } } fs.writeFileSync( path.join(projectDir, metadata.json), JSON.stringify(metaData, null, 2) ); return { status: success, projectDir }; } } module.exports Phi3VisionProcessor;3.2 配置模型API集成在package.json中添加对Phi-3-vision模型的声明{ name: phi3-vision-processor, version: 0.1.0, openclaw: { type: skill, models: [phi-3-vision-128k-instruct], permissions: [filesystem] }, dependencies: { openclaw: ^1.2.0 } }4. 技能测试与调试4.1 本地测试方法创建一个测试脚本test.jsconst processor require(./skill); const instance new processor(); const mockOutput { content: [ { type: text, text: 这是项目架构图 }, { type: image_url, image_url: { url: data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVR42mP8z/C/HgAGgwJ/lK3Q6wAAAABJRU5ErkJggg } } ] }; instance.processPhi3Output(mockOutput, test-project) .then(console.log) .catch(console.error);运行测试node test.js检查生成的目录结构projects/ └── test-project ├── image_1.png └── metadata.json4.2 OpenClaw集成验证修改OpenClaw配置文件~/.openclaw/openclaw.json在skills部分添加{ skills: { phi3-vision-processor: { enabled: true, path: /path/to/your/phi3-vision-processor } } }重启网关服务openclaw gateway restart5. 技能打包与共享5.1 发布到ClawHub首先在ClawHub创建仓库clawhub create --name phi3-vision-processor --type skill然后打包并发布clawhub pack clawhub publish --token YOUR_PUBLISH_TOKEN5.2 编写使用文档完善README.md包含以下关键信息# Phi-3 Vision Processor 专为Phi-3-vision-128k-instruct设计的图文处理技能 ## 功能 - 自动解析模型输出的图文混合内容 - 按项目分类存储图片文件 - 生成图片与描述的元数据关联 ## 安装 bash clawhub install phi3-vision-processor配置在OpenClaw对话中直接使用请处理这个Phi-3-vision的输出并保存到电商项目## 6. 实际应用案例最近我将这个技能用于团队的知识库建设。当Phi-3-vision生成产品说明文档时技能会自动 1. 提取文档中的示意图和流程图 2. 将图片存储到knowledge-base/ui-design目录 3. 生成包含图片路径和说明文字的元数据原本需要手动操作的20分钟流程现在只需一句自然语言指令即可完成。更重要的是这种结构化存储方式让后续的内容检索和维护变得非常方便。 --- **获取更多AI镜像** 想探索更多AI镜像和应用场景访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_sourcemirror_search_hot_keyword)提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

Ollama：命令行操作、上下文长度调优与模型导入

Ollama是一款轻量级的本地大模型运行工具，不用复杂的环境配置，敲几个命令就能跑起来各类AI模型——不管是日常聊天、写代码，还是自定义专属模型，都能轻松搞定。这篇文章从新手视角出发，把Ollama最核心的三个知识点讲透…...

2026/4/9 17:51:24 阅读更多 →

怎么防止别人蹭网？做这二个设置，你家的WiFi，万能钥匙再也破解不了

有没有碰到这样的问题，自家的WIFI和公司的WIFI老是很慢很卡，微信发个图片都还要转圈，好久发不出去，原来是有很多人在蹭WIFI，导致网速很慢，可是明明设置了复杂的WIFI密码还是被人“破解”。这是怎么回事？这先给出2个简单的解决办法： 1、定期修改WiFi密码，使用复杂组…...

2026/4/9 17:47:39 阅读更多 →

突破60帧壁垒：原神帧率解锁完全指南，让你的游戏流畅度翻倍

突破60帧壁垒：原神帧率解锁完全指南，让你的游戏流畅度翻倍【免费下载链接】genshin-fps-unlock unlocks the 60 fps cap 项目地址: https://gitcode.com/gh_mirrors/ge/genshin-fps-unlock 还在为《原神》中60帧的限制感到困扰吗？当你…...

2026/4/9 17:45:13 阅读更多 →

【四川电影电视学院主办 | AP出版，高录用快见刊，最快刊后1个月内上知网谷歌学术 | 主题不设限，教育、艺术、语言等人文社科主题均可】第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026）

高录用快见刊，会议快见刊，最快刊后1个月内上知网&谷歌学术主题不设限，教育、艺术、语言等人文社科主题均可第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026） 2026 5th International Conference on Science …...

2026/5/11 9:28:07 阅读更多 →

【斯普林格Springer 旗下的Atlantis Press出版社出版 | EI Compendex、Scopus、谷歌学术】第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026）

第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026） The 5th International Conference on Blockchain, Information Technology and Smart Finance 2026年6月19日 -21日，中国-上海大会官网：www.ic-bis.net【论文投…...

2026/5/12 5:45:54 阅读更多 →