https://arxiv.org/abs/2502.12524
YOLOv12: Attention-Centric Real-Time Object Detectors
Enhancing the network architecture of the YOLO framework has been crucial for a long time, but has focused on CNN-based improvements despite the proven superiority of attention mechanisms in modeling capabilities. This is because attention-based models can
arxiv.org
https://docs.ultralytics.com/models/yolo12/
YOLO12
Discover YOLO12, featuring groundbreaking attention-centric architecture for state-of-the-art object detection with unmatched accuracy and efficiency.
docs.ultralytics.com
개요
YOLOv12는 기존 CNN 기반 YOLO 모델이 아닌, 어텐션 메커니즘을 중심으로 한 실시간 객체 탐지기이다. 본 논문에서는 기존 CNN 기반 모델들의 속도 장점을 유지하면서도 어텐션 메커니즘의 장점을 활용한 YOLOv12를 제안한다. 핵심 아이디어는 Area Attention Module(A2)을 도입하여 계산 복잡도를 줄이고, R-ELAN(Residual Efficient Layer Aggregation Networks)을 통해 어텐션으로 인한 최적화 문제를 해결하며, 기존 YOLO 아키텍처를 어텐션 메커니즘에 적합하게 개선하는 것이다.
YOLO11이 발표된지 반 년도 채 안되서 새 YOLO 모델이 등장했다. 저번달에 나왔다던데 최근에 진행하는 프로젝트가 바빠서 볼 엄두가 안나다가 이제서야 논문을 보게 되었다. R-ELAN을 쓴다길래 예전에 YOLOv9가 GELAN을 쓴게 생각이 나서 그 사람들이 만든건가 싶었는데 다른 저자들인 것 같고... YOLO 버전은 1년에 2개 정도 나오면서 계속 올라가는데 실질적인 성능 향상은 거의 없는 것 같아서 실제 제품에는 여전히 7이나 8버전만 쓰고 있다.
이 모델이 특이한건 어텐션 구조에 플래시어텐션을 써서 처리속도를 뻥튀기한다는 것이다. 그렇다면 플래시어텐션을 못쓰는 GPU에서는 최적의 속도가 안 나올 것 같은데, AI CCTV 관제 플랫폼같은 서비스에서 최신 GPU를 사용하는 고성능 서버나 워크스테이션을 사용한다면 기존 모델을 대체하는 다른 선택지가 될 수도 있겠다.
'dev' 카테고리의 다른 글
[Linux] Ubuntu 24.04 NVIDIA 드라이버 + CUDA + cuDNN 설치하기 (0) | 2025.03.05 |
---|---|
[Jetson] Jetson Orin Nano GPIO 에러 Exception: Could not determine Jetson model 해결 (0) | 2025.01.20 |
[Label Studio] Ultralytics YOLOv8로 라벨링 작업 자동화 해보기 (2) | 2024.11.14 |
YOLO11 (2) | 2024.10.07 |
Apple Depth Pro: Sharp Monocular Metric Depth in Less Than a Second (0) | 2024.10.07 |