『论文阅读|研究用于视障人士户外障碍物检测的 YOLO 模型』-4 方法

时间:2024-02-20 08:04:03

4.1 YOLO

YOLO 的全称是 “You Only Look Once”,是一种最先进的物体检测算法,早在 2016 年就已问世,它能在一次评估中直接从完整图像中预测边界框和类概率,并能同时预测一张图像中所有类的边界框,速度极快[25]。

该模型将图像划分为不同的网格单元,并检测其中心的物体。如果中心点位于一个网格中,那么该网格就被定义为包含该物体。基本 YOLO 模型以每秒 45 帧的速度实时处理图像,而较小的版本 Fast YOLO 可以达到每秒 155 帧的速度,其 mAP 是其他实时检测器的两倍。当从自然图像扩展到艺术品等其他领域时,它的性能也优于其他检测方法,包括 DPM 和 R-CNN[12]。

本文实施的 YOLO 模型包括 v5、v6、v7、v8 和 NAS。对于 v5 至 v8,作者只实现了每个版本中的一个模型,而对于 YOLO NAS,实现了所有三种尺寸的模型:小型(s)、中型(m)和大型(l)。以下是每种型号的说明。

4.2 YOLOv5

在这里插入图片描述

YOLOv5 [26, 27] 是 Ultralytics 于 2020 年推出的 YOLO(只看一次)物体检测模型的一个版本。与之前的模型相比,该模型引入了几个独特的功能。

首先,TensorRT、Edge TPU 和 OpenVINO 的加入使模型推理能够在各种硬件平台上高效进行。通过使用包含新的默认单周期线性 LR 调度器的重新训练模型,训练过程也得到了增强。

对 11 种不同格式的支持不仅限于导出,还有助于推理和验证,以便在导出过程后定性分析平均精度(mAP)和速度结果。在数据输入阶段会应用马赛克数据增强功能。

边界框损失函数已得到增强,从 CIOU 损失过渡到 GIOU 损失,并在预测组件中使用。此外,YOLOv5 还采用了一种名为 “CSPNet”(CrossStage Partial Network,跨阶段部分网络)的新骨干架构,该架构改进了特征提取程序,提高了模型的准确性。此外,YOLOv5 还采用了 PANet 来生成特征金字塔,这有助于模型有效地管理物体尺寸的变化。YOLOv5 中的模型头仍与 YOLOv3 和 v4 版本相似。

4.3 YOLOv6

YOLOv6 [28, 29],又称 MT-YOLOv6,是基于 YOLO 架构的单阶段物体检测模型。该模型由美团公司的研究人员开发,在以 MS COCO 数据集为基准测试时,其性能比 YOLOv5 更强。该模型有几个新功能。

首先,它在检测器的颈部引入了 BiC(Bidirectional Concatenation 双向并列)模块,该模块可改善定位信号,在保持对速度影响最小的情况下提高性能。它还引入了锚点辅助训练(Anchor-Aided Training , AAT)策略,该策略结合了基于锚点和无锚点范例的优点,同时保持了高效推理。为了提高 YOLOv6 中较小模型的性能,采用了一种新的自蒸馏策略。该策略在训练过程中增强了辅助回归分支,但在推理过程中删除了它,以避免速度大幅下降。YOLOv6 还提供了各种不同规模的预训练模型,包括不同精度的量化模型和针对移动平台优化的模型。

4.4 YOLOv7

YOLOv7 [30] 是 2022 年 7 月推出的单阶段实时物体检测模型。与之前的版本相比,它还具有一些新功能和改进。首先,它包含了一个计划中的重参数化模型,这是一种可应用于各种网络层的策略,侧重于梯度传播路径的概念。

同时,该模型还引入了新技术来增强训练过程;一种名为粗到细引导标签分配的新标签分配方法;以及扩展和复合缩放。

此外,YOLOv7 还在姿势估计方面进行了探索。在性能方面,与之前的版本相比,YOLOv7 实现了更快的推理速度和更高的精度。

4.5 YOLOv8

YOLOv8 [31, 32]于 2023 年 1 月 10 日发布,与之前的迭代版本相比,它带来了一系列新功能。

首先,YOLOv8 引入了全新的骨干网络,作为模型的基本架构。这种设计便于将模型性能与 YOLO 系列中的前几个模型进行简单比较。

然后,它采用了一种新的损失函数来计算预测值和真实值之间的差异。此外,它还采用了新颖的无锚点检测头,无需依赖预定义的锚点即可预测边界框。

从性能上看,YOLOv8 与其他物体检测模型相比,推理速度更快,同时还保持了较高的准确性。它已被用于不同的领域,如野生动物检测和小物体检测挑战。

4.6 YOLO-NAS

YOLO-NAS [33, 34]代表了物体检测领域的前沿进展,包含了早期版本所没有的各种新元素。

首先,它引入了一个专门针对量化进行优化的新型基本模块。与之前的版本相比,这一新模块旨在提高量化性能。因此,YOLO-NAS 能够在不牺牲效率的情况下实现更高的精度。

它采用了复杂的训练策略,如训练后量化、AutoNac 优化和在重要数据集上进行预训练。它还利用了伪标签数据,并通过使用预先训练的教师模型从知识提炼中获得洞察力。

YOLO-NAS 在精确检测和定位小型物体方面也有显著提高。凭借出色的性能/计算比,YOLO-NAS非常适合实时边缘设备应用,并在各种数据集上超越了现有的YOLO模型。

YOLO-NAS 支持训练后量化,可在训练过程后简化模型,从而提高效率。

它旨在与高性能推理引擎(如英伟达™ TensorRT™)无缝集成。它还支持 INT8 量化,将运行时性能提升到前所未有的水平。