本文目錄一覽:
在MS COCO數(shù)據(jù)集上,Yolov4達(dá)到了45%的AP,且其運(yùn)行速度非常快,使用Tesla V100時(shí)可達(dá)約65FPS。對(duì)比EfficientDets,相同AP下,Yolov4的FPS表現(xiàn)幾乎為后者兩倍,但精度方面,Yolov4略遜于EfficientDets。論文解析概述了目標(biāo)檢測(cè)方法論,詳細(xì)闡述了Yolov4的架構(gòu)與策略。
綜上所述,YOLO-V4論文詳細(xì)闡述了Mosaic數(shù)據(jù)增強(qiáng)、Mish激活函數(shù)、Dropblock正則化、FPN+PAN結(jié)構(gòu)以及損失函數(shù)演進(jìn)等方面的技術(shù)創(chuàng)新,這些技術(shù)共同推動(dòng)了目標(biāo)檢測(cè)領(lǐng)域的進(jìn)步。YOLO-V4在提升檢測(cè)精度、適應(yīng)復(fù)雜場(chǎng)景方面表現(xiàn)出色,是目標(biāo)檢測(cè)領(lǐng)域值得深入研究的優(yōu)秀工作。
作者對(duì)模型的貢獻(xiàn)包括:選擇CSPDarknet53骨干網(wǎng)、SPP附加模塊、PANet作為neck和YOLOv3(anchor-based)head,以及使用DropBlock作為正則化方法。在其他方面,YOLOv4進(jìn)行了優(yōu)化,如Mosaic數(shù)據(jù)增強(qiáng),使得信息量更大,等于變相增大了batch size,以及Self-Adversarial Training (SAT) 方法,使模型更魯棒。
首先,模型將輸入點(diǎn)云進(jìn)行體素化處理,將其劃分為一系列大小相等的長(zhǎng)方體網(wǎng)格,例如設(shè)定一個(gè)范圍[-100, -20, -2, 100, 20, 2],然后切割成無(wú)數(shù)小格子,每個(gè)網(wǎng)格限制點(diǎn)數(shù),以保持信息量的效率。接著,利用HardSimpleVFE方法提取體素特征,通過(guò)求平均值來(lái)代表網(wǎng)格內(nèi)的點(diǎn)特征。
該算法在激光點(diǎn)云3D目標(biāo)檢測(cè)與跟蹤方面具有創(chuàng)新性,摒棄了使用邊界框的傳統(tǒng)方法,轉(zhuǎn)而采用關(guān)鍵點(diǎn)來(lái)表示、檢測(cè)和跟蹤3D目標(biāo)。CenterPoint算法包括兩個(gè)階段:第一階段,使用關(guān)鍵點(diǎn)檢測(cè)器檢測(cè)目標(biāo)的中心點(diǎn);第二階段,根據(jù)中心點(diǎn)特征回歸目標(biāo)的3D尺寸、朝向和速度等屬性。目標(biāo)跟蹤簡(jiǎn)化為一個(gè)最近點(diǎn)匹配過(guò)程。
在3D目標(biāo)檢測(cè)中,CenterPoint使用標(biāo)準(zhǔn)3D骨干從激光雷達(dá)點(diǎn)云中提取地圖視圖特征表示,并結(jié)合2D CNN架構(gòu)檢測(cè)中心點(diǎn),使用中心特征回歸到完整3D邊界框。在推理過(guò)程中,通過(guò)索引到每個(gè)對(duì)象峰值位置的密集回歸頭輸出提取所有屬性。網(wǎng)絡(luò)的3D編碼部分使用現(xiàn)有的網(wǎng)絡(luò)模型,提供VoxelNet與PointPillar兩種主干網(wǎng)實(shí)現(xiàn)方式。
1、BEVDepth論文提出了一種用于基于攝像頭的BEV 3D目標(biāo)檢測(cè)的深度估計(jì)方法,旨在獲得可靠深度值,該方法由來(lái)自曠視科技、華中理工和西安交大的研究者于2022年6月21日發(fā)布在arXiv上。BEVDepth通過(guò)利用編碼的內(nèi)外參獲得顯式深度監(jiān)督信號(hào),并引入深度校正子網(wǎng)絡(luò)來(lái)抵消深度真值中投影導(dǎo)致的干擾。
2、BEVDepth 題:《BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection》提供了一種方法來(lái)獲取多視圖3D對(duì)象檢測(cè)的可靠深度信息。BEVDet 題:《BEVDet: High-performance Multi-camera 3D Object Detection in Bird-Eye-View》專注于鳥(niǎo)瞰圖下的高性能多相機(jī)3D目標(biāo)檢測(cè)。
3、融合多個(gè)傳感器數(shù)據(jù)的BevFusion是性能提升的又一重要步驟,它通過(guò)多傳感器的協(xié)同工作,增強(qiáng)了檢測(cè)的精度。DETR3D則在多視角圖像上開(kāi)辟了新的路徑,通過(guò)連續(xù)深度預(yù)測(cè)構(gòu)建出BEV空間,物體檢測(cè)更為精準(zhǔn)。值得一提的是,DETR3D通過(guò)object query查詢圖像特征,將目標(biāo)特征與像素點(diǎn)緊密關(guān)聯(lián),展示了智能的物體檢測(cè)方法。
4、BEVDepth:為解決深度預(yù)測(cè)不準(zhǔn)確問(wèn)題,引入深度作為監(jiān)督,提升純視覺(jué)方案LSS方法的性能。BEVerse:采用多任務(wù)學(xué)習(xí),結(jié)合3D檢測(cè)、運(yùn)動(dòng)預(yù)測(cè)和語(yǔ)義分割,通過(guò)多幀融合和LSS結(jié)構(gòu)生成BEV特征,多個(gè)任務(wù)協(xié)同學(xué)習(xí),性能超越單任務(wù)。
5、當(dāng)前3D目標(biāo)檢測(cè)算法根據(jù)輸入圖像數(shù)量分為單目相機(jī)和多目相機(jī)兩類。多目相機(jī)方法更為主流,因?yàn)樗鼈兺ㄟ^(guò)環(huán)視相機(jī)收集的信息投影到BEV空間,實(shí)現(xiàn)全面的環(huán)境感知。然而,單目相機(jī)的深度預(yù)測(cè)策略依然值得多目相機(jī)算法借鑒。因此,本文將詳細(xì)探討基于單目相機(jī)的3D目標(biāo)檢測(cè)算法——CaDDN。