教程只要数据集多就能微调出效果不错的多模态大模型。这里使用unsloth工具微调 Gemma4官方教程地址https://unsloth.ai/docs/zh/mo-xing/gemma-4/train这里主要说数据集的组成格式流程图片 指令 → 多模态模型 → 直接输出 JSON{messages:[{role:user,content:[{type:image,image:captcha_001.png},{type:text,text:请识别该验证码任务并输出需要点击的矩形框位置。}]},{role:assistant,content:[{type:text,text:{\task\:\text_click\,\targets\:[{\text\:\春\,\click_rect_point\:[56,84,126,178],\order\:1}]}}]}]}测试效果进入【无限识别 hypercalc】官网进行对接识别。https://www.hypercalc.cn