https://arxiv.org/abs/2410.02073
개요
Apple의 AI 연구팀은 단일 이미지에서 절대적인 깊이 정보를 빠르고 정확하게 추정할 수 있는 제로샷 메트릭 깊이 추정 모델 Depth Pro를 제안.
특징
- 멀티스케일 비전 트랜스포머(ViT) 구조 사용.
- 초점 거리 추정 및 경계 정확도 개선
- 멀티스케일 ViT 네트워크: 이미지 패치를 다양한 스케일에서 추출해 ViT 인코더에 입력하고, 이를 하나의 고해상도 깊이 지도 결과로 융합.
- 새로운 평가 메트릭 도입: 경계 정확성을 평가하기 위한 새로운 메트릭 사용하여 경계 추적 성능 향상.
- 제로샷 초점거리 추정: 추가 카메라 메타데이터 없이 단일 이미지로 초점 거리 예측 가능.
성능
- 2.25메가픽셀 해상도의 깊이 지도를 0.3초 만에 생성.
- 머리카락이나 식물같은 세부 디테일도 포착 가능
한계점
- 반투명 표면 및 볼륨 산란 환경에서 정확한 깊이 추정이 어려움.
사용법
https://github.com/apple/ml-depth-pro
설치
conda create -n depth-pro -y python=3.9
conda activate depth-pro
pip install -e .
source get_pretrained_models.sh
커맨드라인 사용예시
depth-pro-run -i ./data/example.jpg
# -i: 이미지 파일 혹은 폴더의 경로
# -o: 출력 폴더 경로
# --skip-display: True -> matplotlib display 안함
# -v: True -> 상세정보 출력
결과
허깅페이스 스페이스
https://huggingface.co/spaces/A19grey/Depth-Pro-in-Meters
'dev' 카테고리의 다른 글
[Label Studio] Ultralytics YOLOv8로 라벨링 작업 자동화 해보기 (2) | 2024.11.14 |
---|---|
YOLO11 (2) | 2024.10.07 |
[Jetson] Jetpack6 Jetson 디바이스에 PyQt6, PySide6 설치하기 (0) | 2024.08.13 |
NanoVLM: 엣지 디바이스에서 사용할 수 있는 멀티모탈 모델 (0) | 2024.08.12 |
[Label Studio] Docker Compose로 사용하기 + 로컬 스토리지에서 YOLO 사전 주석 데이터 불러오기 (0) | 2024.07.03 |