摘要YOLO(You Only Look Once)是目标检测领域最经典的端到端算法之一,自2016年提出以来,经历了v1到v8的多次迭代,在工业界和学术界得到了广泛应用。本文从工程落地角度出发,以YOLOv5为蓝本,系统讲解其核心原理、训练流程、推理部署及调优技巧。全文包含完整可运行的代码示例,覆盖数据准备、模型训练、评估与导出全链路,帮助读者在真实项目中快速上手YOLO。核心原理YOLO将目标检测视为回归问题,通过单个神经网络直接从输入图像预测边界框坐标和类别概率。其核心思想包含三个关键点:网格划分:将输入图像划分为S×S的网格,每个网格负责检测中心点落在该网格内的目标。边界框预测:每个网格预测B个边界框,每个框包含5个参数:(x, y, w, h, confidence)。其中(x, y)是框中心相对于网格的偏移量,(w, h)是框的宽高相对于整张图像的归一化值,confidence表示框内包含目标的置信度。多尺度预测:YOLOv3之后引入FPN结构,在三个不同尺度的特征图上进行预测,分别对应大、中、小目标。YOLOv5的损失函数由三部分组成:边界框回归损失:采用CIoU Loss,同时考虑重叠面积、中心点距离和宽高比。置信度损失:二值交叉熵损失,区分前景和背景。分类损失:二值交叉熵损失,支持多标签分类。训练过程中,YOLOv5使用Mosaic数据增强、自适应锚框计算、学习率余弦退火等技巧提升性能。