MinerU 系列教程 第十篇本篇教程继续模块三:深入篇 - AI 模型详解,将聚焦 Pipeline 后端的 OCR 引擎 —— PytorchPaddleOCR。OCR(光学字符识别)是文档解析流水线中将图像区域转换为可编辑文本的核心环节。MinerU 没有从零训练 OCR 模型,而是采用了 PaddleOCR 的 PyTorch 移植版本,通过"文本检测 + 文本识别"的经典双阶段架构,实现了对 109 种语言的覆盖。你将看到语言如何被自动路由到对应的模型族、检测框如何排序与裁剪、印章上的弯曲文本如何被矫正展平,以及设备自适应和批处理优化的工程策略。学习目标完成本课学习后,你将能够:理解 OCR 在文档解析流水线中的位置与作用掌握"文本检测(DB)+ 文本识别(CRNN/SVTR)"双阶段架构的工作原理了解 109 种语言的分组策略与自动路由机制理解检测框排序(sorted_boxes)、合并(merge_det_boxes)与裁剪(get_rotate_crop_image)的完整流程掌握印章 OCR 的特殊处理:AutoRectifier弯曲文本矫正与CurveTextRectifier虚拟相机展平理解设备自适应策略(CPU 自动切换 lite 模型)和批处