嵌入式AI实战：基于YOLOv8与DPT的实时物体检测与深度估计融合系统

张

张建站

2026/5/24 3:41:14

10分钟阅读

1. 项目概述与核心价值在孟加拉国达卡这样人口稠密、交通状况复杂的城市街头视障人士的日常出行充满了挑战。无处不在的障碍物如人力车、摩托车、行人乃至突然出现的摊贩都可能构成潜在的危险。传统的盲杖虽然能探测到前方是否有物体却无法告知使用者“那是什么”以及“它到底有多近”。这正是我们着手开发这个嵌入式实时物体警报系统的初衷它不仅仅是一个探测器更是一个能理解场景、评估风险并给出明确预警的智能伙伴。这个系统的核心是将计算机视觉领域两项看似独立却又紧密关联的技术——单目深度估计与物体检测——巧妙地融合在一起。深度估计负责回答“距离有多远”它从一张普通的2D图片中估算出每一个像素点距离摄像机的实际深度从而构建出场景的3D空间感。物体检测则负责回答“那是什么”它能在图像中精准地框出各类物体如汽车、行人、人力车并识别其类别。当我们将两者结合系统就具备了完整的场景理解能力它能识别出前方3米处有一辆正在倒车的“人力三轮车”而不仅仅是“前方有障碍物”。这种融合感知方案对于需要精确避障和情境感知的应用如辅助驾驶、机器人导航而言是至关重要的技术突破。然而将如此复杂的深度学习模型塞进一个巴掌大小的树莓派Raspberry Pi里并保证其能实时处理摄像头视频流是另一个巨大的工程挑战。我们选用的DPT Hybrid MiDaS深度估计模型和YOLOv8物体检测模型在原始状态下对计算资源和存储空间的要求都相当可观。为此模型量化技术成为了项目的“瘦身秘诀”。通过将模型参数从高精度的浮点数如FP32转换为低精度的整数如INT8我们成功地将深度估计模型从470MB压缩到了162.4MB物体检测模型也从49.6MB瘦身至25MB而性能损失却控制在了可接受的范围内。最终我们得到了一个mAP50平均精度IoU阈值为0.5达到0.801的轻量级融合模型它能够在嵌入式平台上稳定运行为视障用户提供及时、准确的语音或振动警报。这个项目不仅是一次技术实践更是一次有温度的设计。它证明了通过精心的模型选择、优化和工程化部署前沿的AI技术完全可以走下云端以低成本、低功耗的形式融入人们的日常生活解决真实世界中的痛点。2. 系统整体设计与技术选型思路构建一个面向视障人士的辅助系统其设计必须紧紧围绕几个核心原则实时性、准确性、轻量化和实用性。实时性要求系统处理一帧图像到发出警报的延迟必须极低理想情况在数百毫秒内否则预警就失去了意义。准确性则直接关系到用户的安全与信任误报和漏报都需要被严格控制。轻量化是嵌入式部署的前提树莓派这类设备的算力和内存有限。实用性要求系统输出必须是直观、非干扰的比如清晰的语音提示或可调节的振动反馈。2.1 为何选择“检测深度”的双流架构在项目初期我们评估过多种方案。单纯依赖物体检测是最直接的但它缺少距离信息。系统可能会对50米外的一辆卡车和2米外的一个行人发出同样急促的警报这显然会令用户困惑甚至恐慌。另一种思路是单纯依赖深度图设定一个距离阈值对阈值内的所有像素区域都报警。但这会导致系统对墙面、地面等无害的大面积区域过度敏感产生大量无效警报即“狼来了”效应最终导致用户忽略所有警报。因此双流并行处理架构成为了必然选择。摄像头捕获的图像同时送入两个模型支路。深度估计支路生成场景的深度图这张图就像一个距离热力图越近的区域颜色越“热”值越小。物体检测支路则输出一系列带有类别标签和置信度的边界框。系统的“大脑”——我们的融合逻辑——会做这样一件事遍历每一个检测到的物体框去深度图中对应区域查询其平均或最小深度值。只有当某个被识别出的物体比如“人力车”的深度值小于我们预设的安全距离阈值例如3米时系统才会触发针对该特定物体的警报。这种设计完美结合了两种技术的优势实现了精准的、基于语义的近距离障碍物预警。2.2 模型选型的深度考量为什么是DPT和YOLOv8深度估计模型选型DPT Hybrid MiDaS在单目深度估计领域有监督、无监督和自监督方法众多。我们最终选择DPTDense Prediction Transformer Hybrid MiDaS模型主要基于以下几点实战考量零样本泛化能力MiDaS系列模型在大规模混合数据集上训练具备强大的零样本泛化能力。这意味着即使我们的应用场景孟加拉街头并未出现在其训练集中它也能产生相对合理的深度估计这对于收集真实场景深度标注数据极其困难的我们来说是至关重要的起点。高精度与细节保留DPT架构结合了Vision TransformerViT和CNNResNet的优点。ViT擅长捕捉图像的全局上下文信息这对于理解场景的整体布局和物体间的相对关系至关重要而ResNet骨干网络则提供了强大的局部特征提取能力。这种混合设计让DPT生成的深度图在物体边缘和细节上表现优异减少了模糊和拖影为后续的精确距离计算打下了基础。相对距离的可靠性对于避障应用我们更关心物体之间的相对远近关系而非绝对的米制距离。DPT输出的正是尺度不变的相对深度图其数值大小直接反映了相对的远近这完全满足我们“判断哪个物体更近”的核心需求。物体检测模型选型YOLOv8在YOLO系列众多版本中我们选择了v8并在具体尺寸上权衡后采用了YOLOv8mmedium。这个决策过程充满了权衡YOLOv5n/s vs. YOLOv8n/m我们首先在RSUD20K数据集上进行了基准测试。YOLOv5n和YOLOv8n虽然体积小巧约5MB但在mAP50上0.706和0.73难以满足我们对精度的要求。YOLOv5s17.6MB, mAP50 0.778是一个不错的平衡点。但YOLOv8m49.6MB, mAP50 0.801以约3倍的体积换来了2.3%的mAP提升。在嵌入式设备上这3%的精度提升可能意味着更少的漏检比如一个蹲着的行人其安全收益我们认为超过了体积增加的代价。YOLOv8的核心优势YOLOv8在架构上做了诸多改进如使用了新的骨干网络和特征金字塔结构其训练收敛速度更快提供的评估指标也更全面。此外其官方维护的Ultralytics库生态完善从训练、验证到导出为各种格式如ONNX, TensorFlow Lite的支持都非常顺畅极大降低了工程化部署的难度。与数据集的匹配度RSUD20K数据集包含了大量南亚地区特有的交通元素如人力车、三轮车。YOLOv8m较强的表征学习能力能更好地从预训练知识在COCO等通用数据集上迁移并适应这些特定类别这也是其取得SOTAState-of-the-Art结果的原因。注意模型选型没有“最好”只有“最合适”。如果你的设备资源极其紧张如使用树莓派ZeroYOLOv5n或YOLOv8n加上更激进的量化可能是更可行的选择。我们的选择是基于树莓派4B/5的算力在精度、速度和模型大小之间找到的一个最优折中点。2.3 嵌入式平台与传感器选型Raspberry Pi Pi Camera选择树莓派作为核心计算单元几乎是创客和嵌入式AI项目的标准答案原因在于其极佳的平衡性充足的算力树莓派4B/5的CPU和GPU特别是VideoCore VI/VII能够较好地支持经过优化的轻量级模型推理。丰富的生态庞大的社区和资料库意味着你遇到的绝大多数问题都能找到解决方案。便捷的接口原生支持CSI摄像头接口与Pi Camera模块即插即用保证了图像采集的低延迟和稳定性。灵活的扩展GPIO引脚可以轻松连接蜂鸣器、振动电机、蓝牙耳机等警报输出设备。Pi Camera模块的选择也值得一说。我们推荐使用高质量、带自动对焦的官方摄像头模块。在动态的户外场景中固定的焦距可能会因为人物或车辆的移动导致图像模糊影响检测精度。自动对焦能确保拍摄的主体始终清晰。3. 核心模型训练、优化与融合实战有了清晰的设计蓝图和选型接下来就是最具技术含量的部分让模型“学会”看孟加拉的街道并让它们变得足够“苗条”以在树莓派上奔跑。3.1 数据准备获取与预处理高质量的数据是AI模型的基石。本项目涉及两个独立的任务因此也需要两套数据。深度估计数据KITTI深度数据集我们使用了经典的KITTI深度数据集。它包含数万张从车载视角拍摄的街道图像以及通过激光雷达获取的精准深度真值图。这里有一个关键细节KITTI的深度图是稀疏的只有激光雷达扫描到的点有值而我们的DPT模型训练需要密集深度图。通常我们会使用一些图像修复算法或直接利用MiDaS官方提供的、已经过预处理和插值的数据版本。在预处理阶段我们将所有图像和深度图统一缩放到224x224的分辨率并将像素值归一化到[0, 1]区间。归一化能加速模型训练收敛并提高数值稳定性。物体检测数据RSUD20K数据集这是本项目成功的关键之一。RSUD20K是一个专注于孟加拉国道路场景的数据集包含了“人力车”、“三轮车”、“人力搬运车”等极具地方特色的类别这正是通用数据集如COCO所缺乏的。我们按照约95:2.5:2.5的比例随机划分了训练集、验证集和测试集确保数据分布的均匀性。预处理同样包括 resize 到统一的尺寸如640x640这是YOLO模型的常见输入尺寸和归一化。实操心得数据划分后一定要用脚本可视化检查一下确保每个子集中各类别的数量大致均衡特别是对于那些样本数较少的类别。否则模型可能会对“公交车”这类大样本类别过拟合而完全学不会识别“人力搬运车”。3.2 迁移学习实战站在巨人的肩膀上我们并没有从零开始训练这两个庞大的模型那需要海量的数据和漫长的计算时间。迁移学习是我们的“加速器”。对于DPT深度估计模型我们直接加载了在数百万张图像上预训练好的DPT-Hybrid-MiDaS权重。在微调Fine-tuning时我们冻结了模型的主干特征提取网络即ViTResNet部分只训练最后的深度回归头。这是因为预训练的主干已经学会了提取通用、强大的图像特征这些特征对于深度估计任务同样是有效的。我们只需要让模型根据我们的数据KITTI微调一下如何将这些特征映射到具体的深度值上。这大大减少了需要训练的参数数量节省了时间和计算资源也降低了过拟合的风险。对于YOLOv8物体检测模型使用Ultralytics库加载yolov8m.pt预训练权重。这里的策略略有不同。YOLOv8的架构可以看作一个主干网络Backbone、一个颈部网络Neck和一个检测头Head。我们采取了部分冻结的策略冻结了主干网络和颈部网络较浅的层例如前22个模块只训练较深的层和检测头。这样做的逻辑是浅层网络通常学习的是通用边缘、纹理等低级特征这些特征具有普适性而深层网络学习的是更抽象、更任务相关的特征。通过冻结浅层保留通用知识微调深层使其适应RSUD20K数据集中特定的物体类别和外观。训练YOLOv8时我们设置了30个epoch批量大小batch size为16使用Adam优化器学习率设为0.0001。损失函数由三部分组成见原文公式1-4边界框损失L_box衡量预测框与真实框的重合度IoU。分类损失L_cls衡量预测的类别概率是否正确。分布焦点损失L_dflYOLOv8引入的改进让模型更专注于难以预测的边界框。通过监控训练过程中的损失下降曲线以及验证集上的mAP指标我们可以判断模型是否在良好地学习。3.3 模型量化给模型“瘦身”的关键一步这是将实验室模型推向嵌入式设备的核心技术环节。未经处理的FP32模型精度高但体积大、计算慢。量化就是将模型权重和激活值从32位浮点数转换为更低比特位的整数如INT8。这个过程会引入误差但通过精心设计的量化校准可以将精度损失降到最低。我们使用TensorFlow Lite 转换器对训练好的模型进行动态范围量化Dynamic Range Quantization。具体步骤如下模型格式转换首先将PyTorch训练的YOLOv8模型和DPT模型导出为ONNX格式这是一个通用的中间表示。TFLite转换使用tf.lite.TFLiteConverter加载ONNX模型可能需要通过onnx-tf工具先转为TensorFlow SavedModel格式。在转换器中我们明确指定优化选项为[tf.lite.Optimize.DEFAULT]这通常会启用动态范围量化。校准对于全整数量化如果追求极致性能可以使用代表数据集如验证集的一部分进行校准统计激活值的分布范围从而确定更精确的缩放比例和零点进行INT8量化。我们这里采用的动态范围量化权重被转换为INT8而激活值在推理时动态量化为INT8无需校准数据集是一种简便且效果不错的折中方案。导出与评估导出为.tflite文件。量化后必须在测试集上重新评估模型性能我们观察到物体检测模型的mAP50从0.801下降到了0.769F1分数从0.808降至0.733。这个下降在可接受范围内但你必须根据你的应用场景确定可接受的精度损失阈值。避坑指南量化后模型精度下降是常态。如果下降过多可以尝试1)使用代表性数据集进行校准这比动态范围量化更精确2)尝试混合量化对某些敏感层保留FP16精度3)检查量化感知训练但这需要在模型训练阶段就引入量化模拟流程更复杂。我们的经验是对于YOLOv8和DPT这类成熟模型动态范围或全整数量化通常能取得很好的权衡。3.4 模型融合与警报逻辑实现两个模型独立运行并输出结果后需要在应用层进行融合。以下是核心的Python伪代码逻辑import cv2 import numpy as np import tflite_runtime.interpreter as tflite # 1. 初始化TFLite解释器加载量化后的深度和检测模型 depth_interpreter tflite.Interpreter(model_pathquantized_depth_model.tflite) detect_interpreter tflite.Interpreter(model_pathquantized_yolov8m_model.tflite) # ... 分配张量等初始化操作 ... # 2. 从Pi Camera捕获一帧图像 frame capture_image_from_camera() input_img preprocess(frame) # 预处理resize, 归一化等 # 3. 并行推理 # 深度估计 depth_interpreter.set_tensor(input_index, input_img) depth_interpreter.invoke() depth_map depth_interpreter.get_tensor(output_index)[0] # 获取深度图 # 物体检测 detect_interpreter.set_tensor(input_index, input_img) detect_interpreter.invoke() boxes, scores, classes process_yolo_output(detect_interpreter) # 4. 融合与警报决策 ALERT_DISTANCE_THRESHOLD 3.0 # 预设警报阈值单位米需根据深度图尺度换算 for box, score, cls in zip(boxes, scores, classes): if score CONFIDENCE_THRESHOLD: # 置信度过滤 continue # 从深度图中提取该边界框区域内的深度值 x1, y1, x2, y2 map_to_original_frame(box, frame.shape) # 将框映射回原图坐标 object_depth_region depth_map[y1:y2, x1:x2] # 计算该物体的代表性深度例如取区域深度的前10%最小值以避免背景干扰 min_depth_percentile np.percentile(object_depth_region.flatten(), 10) # 注意depth_map输出的是相对深度值越小表示越近。需要将其转换为实际距离。 # 这里假设我们已经通过相机标定和尺度估计得到了一个转换因子 scale_factor estimated_distance min_depth_percentile * scale_factor if estimated_distance ALERT_DISTANCE_THRESHOLD: object_name CLASS_NAMES[cls] # 触发警报语音合成或控制GPIO使振动电机工作 trigger_alert(f注意前方 {estimated_distance:.1f} 米处有 {object_name})关键细节解析深度图到实际距离的转换DPT输出的是相对深度数值本身没有物理单位米。我们需要一个“尺度因子”将其转换为实际距离。一个实用的方法是在部署现场用一个已知尺寸的物体如一个高1.7米的人站在已知距离如2米处拍摄图片通过深度图中该物体的深度值与实际距离的比例计算出大致的尺度因子。虽然不够精确但对于相对距离预警已足够。物体深度计算直接取边界框内所有深度值的平均可能会被背景深度污染例如物体框包含了远处的一部分天空。取深度值的前10%分位数即最靠近相机的那些像素能更好地代表物体本身的最近距离更符合安全预警的需求。多物体处理当同时有多个物体进入警戒范围时警报系统应进行优先级排序。例如按距离由近到远播报或者只播报最近的那个物体避免信息过载。4. 系统部署、性能评估与避坑实录将代码和模型部署到树莓派上并让整个系统稳定、实时地跑起来是“最后一公里”也是最考验工程能力的一步。4.1 树莓派环境搭建与优化在树莓派上运行TensorFlow Lite模型推荐以下配置流程操作系统使用 Raspberry Pi OS (64-bit) Lite 版本减少不必要的图形界面开销。Python环境使用venv创建独立的虚拟环境安装tflite_runtime轮子。这是TensorFlow Lite的轻量级运行时比安装完整的TensorFlow包节省大量空间和资源。pip install https://github.com/google-coral/pycoral/releases/download/v2.0.0/tflite_runtime-2.5.0-cp39-cp39-linux_aarch64.whl摄像头驱动确保libcamera和相关Python库如picamera2已正确安装这是访问Pi Camera V3等新摄像头模块所必需的。性能优化CPU/GPU调频使用sudo raspi-config将CPU调速器设置为performance模式牺牲一些功耗换取最高运行频率。内存分配在/boot/config.txt中适当增加GPU内存分配如gpu_mem128这对图像处理有助益。使用多线程将图像采集、深度推理、检测推理和警报输出放在不同的线程中通过队列queue进行通信可以充分利用树莓派的多核性能减少因串行操作导致的延迟。4.2 性能评估与实测数据我们在树莓派4B4GB内存上对量化后的融合系统进行了实测组件模型尺寸 (量化后)单帧推理时间 (approx.)备注深度估计 (DPT)162.4 MB450-550 ms计算密集型是系统瓶颈物体检测 (YOLOv8m)25 MB120-180 ms速度相对较快融合与后处理-20-50 ms包括深度图裁剪、距离计算等系统总延迟-600-800 ms从拍照到发出警报分析与优化方向帧率整体系统处理一帧需要0.6到0.8秒即大约1.2-1.7 FPS。这对于实时预警来说处于临界状态。主要瓶颈在DPT模型。优化尝试进一步量化尝试对DPT模型进行INT8全整数量化需校准可能再提升一些速度。模型裁剪探索更轻量的深度估计模型如MobileNetV2PatchAttn的变体参见原文对比表但其精度RMSE 2.927低于DPTRMSE 2.575需要权衡。输入分辨率将输入图像从224x224降低到160x160或128x128可以显著减少计算量但会损失细节影响小物体检测和深度图质量。异步处理流水线这是最有效的软件优化。让深度估计和物体检测并行运行。由于检测速度更快可以先得到检测框然后只对检测框内的局部区域进行深度估计而不是计算全图的深度。这能大幅减少深度估计的计算量。4.3 常见问题与排查技巧实录在开发和部署过程中我们踩过不少坑这里分享一些典型的排查经验问题1模型量化后精度暴跌mAP下降超过10%可能原因模型中存在某些对数值范围特别敏感的层如注意力机制中的softmax层直接量化破坏了其数值特性。排查与解决使用tf.lite.Interpreter的get_tensor_details()函数检查量化后各层的输入输出类型确认是否按预期量化。尝试混合量化。使用TensorFlow Lite的[tf.lite.Optimize.EXPERIMENTAL_SPARSITY]等选项或手动指定某些操作保持FP16精度。回归到量化感知训练。在模型训练微调阶段就模拟量化过程让模型提前适应低精度计算这通常能获得最好的量化后精度。问题2树莓派上推理速度远慢于预期可能原因未使用TFLite的硬件加速或者CPU频率被限制。排查与解决检查是否安装了针对树莓派ARM架构优化的tflite_runtime轮子。尝试使用XNNPACK 委托。在加载解释器时指定interpreter tf.lite.Interpreter(model_pathmodel_path, experimental_delegates[tf.lite.load_delegate(libedgetpu.so.1)])注意XNNPACK是CPU优化树莓派上可能需从源码编译。使用vcgencmd measure_temp和vcgencmd measure_clock arm监控CPU温度和频率确保没有因过热而降频。考虑为树莓派加装散热风扇或散热片。问题3深度图与检测框对齐不准导致距离计算错误可能原因两个模型的输入预处理如resize、归一化方式不一致或者检测框映射回原图坐标时计算有误。排查与解决可视化调试将深度图以彩色热力图形式叠加到原图上同时画出检测框。目视检查距离最近的区域是否与检测框主体吻合。统一预处理确保两个模型在推理前对同一帧原始图像进行的resize插值算法、归一化除255还是减均值除标准差操作完全一致。坐标映射验证编写一个简单的测试用一个已知位置的静态物体分别用两个模型处理并打印计算出的深度值和框坐标与手工测量/标注进行对比。问题4户外环境光线变化导致检测性能波动可能原因模型训练数据的光照条件与真实环境差异较大模型未充分学习到光照不变性特征。排查与解决数据增强在训练YOLOv8时启用更强大的数据增强如随机调整亮度、对比度、饱和度添加随机模糊、雾化等提升模型鲁棒性。自动曝光与白平衡在代码中调用摄像头API设置自动曝光和自动白平衡让摄像头自身适应环境光。后处理滤波对检测结果实施时间域上的滤波。例如采用“N帧中出现M次”才确认的逻辑避免因单帧光线突变造成的误检或漏检。5. 未来展望与个人实践心得回顾整个项目从论文阅读、模型选型、数据准备、训练优化、量化部署到最后的系统集成是一次完整的嵌入式AI产品开发流程演练。这个原型系统已经证明了技术路线的可行性但若要真正转化为可靠的产品还有很长的路要走。我个人在实践中的几点深刻体会首先没有“银弹”模型。在项目初期我们曾希望找到一个现成的、既轻快又精准的融合模型但事实是你必须根据你的具体约束算力、精度、延迟和目标场景孟加拉街头来组装和优化你的技术栈。DPT和YOLOv8的组合是我们多次试验后的平衡之选。其次量化是嵌入式AI的“必修课”但也是一门“艺术”。它不仅仅是运行一个转换脚本那么简单。你需要理解不同量化方式动态范围、全整数、混合的优缺点需要准备代表性的校准数据更需要建立一套自动化流程在量化后 rigorously 地评估模型在所有关键指标上的变化而不仅仅是精度。有时1%的mAP下降可能换来50%的延迟降低这个交易是否划算完全取决于你的应用场景。最后系统集成中的“非AI”部分往往决定成败。模型的FPS很高但整个系统的延迟可能卡在图像采集、线程通信或者警报播放上。多线程编程的复杂性、内存管理的疏忽、甚至电源供应的稳定性都可能让实验室里表现完美的模型在真实设备上“翻车”。务必尽早进行端到端的集成测试在真实或仿真的环境中评估整体性能。对于未来工作的方向除了原文提到的部署到手机、引入可解释性AIXAI外我认为还有几个更落地的优化点传感器融合单纯依靠视觉在极端天气大雨、浓雾或光照条件强逆光下会失效。可以考虑加入一个廉价的毫米波雷达或超声波传感器作为冗余。当视觉系统置信度低时启用辅助传感器提高系统的全天候可靠性。个性化与自适应安全距离阈值不应是固定的。系统可以通过学习用户的行走速度、反应习惯动态调整警报的敏感度和提前量。甚至可以为不同类别的物体设置不同的警戒距离例如对移动的车辆预警距离更远。端云协同将最耗资源的深度估计任务放在云端树莓派只负责轻量的物体检测和结果融合。通过5G或Wi-Fi在网络条件良好时可以获得更精确的深度信息网络不佳时则降级到本地纯检测模式。这种架构能更好地平衡性能与成本。技术服务于人。这个项目的最大价值不在于我们实现了多高的mAP或者把模型压缩了多少倍而在于我们探索了一条如何将前沿AI技术以低成本、低功耗的形式切实地赋能于有需要的人群的路径。每一次代码优化每一次模型压缩都是为了那最终可能响起的一声及时警报或是一次轻微的预防性振动这或许就能帮助一位视障朋友更自信、更安全地走向外面的世界。