摘要YOLO(You Only Look Once)作为目标检测领域的一阶段经典算法,以端到端、实时性高、精度均衡著称。本文从YOLOv5/v8核心原理出发,系统讲解锚框机制、损失函数、模型结构等关键技术点,并基于Ultralytics官方框架,提供从数据准备、模型训练、评估到推理部署的完整可运行代码。全文覆盖数据标注格式转换、模型调优策略、常见踩坑与解决方案,旨在帮助读者在单卡GPU环境下快速落地YOLO项目。核心原理1. 一阶段检测思想YOLO将目标检测视为回归问题,输入图像经过单个神经网络直接输出边界框坐标、类别概率和置信度。与Faster R-CNN等两阶段方法相比,YOLO无需候选区域生成,推理速度显著提升。2. 锚框机制YOLOv5/v8采用基于K-means聚类的锚框设计。针对COCO数据集,默认锚框尺寸为:小尺度:[10,13, 16,30, 33,23]中尺度:[30,61, 62,45, 59,119]大尺度:[116,90, 156,198, 373,326]锚框用于匹配真实框,计算IoU并分配正负样本。3. 模型结构YOLOv8采用CSPDarknet53作为骨干网络,结合SPPF(空间金字塔池化)和PANet(路径聚合网络)进行多尺度特征融合。Head部分解耦为分类分支和回归分支,使用TaskAlignedAss