YOLOv8 / YOLOv9 / YOLOv10 / YOLO-World

Wprowadzenie

YOLO (You Only Look Once) to rodzina modeli do detekcji obiektów w czasie rzeczywistym. Od 2023 roku Ultralytics oraz niezależni badacze regularnie wydają nowe wersje, znacząco podnosząc dokładność, prędkość i możliwości modeli.

Porównanie wersji

  • YOLOv8 (2023) – Najpopularniejsza wersja. Doskonały balans prędkości i dokładności. Bardzo dobre wsparcie społeczności i ekosystem Ultralytics.
  • YOLOv9 (2024) – Wprowadziła Programmable Gradient Information (PGI) oraz Generalized Efficient Layer Aggregation Network (GELAN). Lepsza dokładność przy podobnej prędkości.
  • YOLOv10 (2025) – Znacząca poprawa efektywności. Usunięto bottleneck NMS (Non-Maximum Suppression) dzięki architekturze z wbudowanym post-processingiem. Najlepszy wybór do zastosowań produkcyjnych.
  • YOLO-World (2024/2025) – Wersja open-vocabulary. Potrafi wykrywać obiekty na podstawie tekstowego opisu (zero-shot), bez wcześniejszego treningu na konkretnych klasach.

Kluczowe cechy i ulepszenia

  • YOLOv8: Anchor-free, łatwa w użyciu, wiele wariantów (n/s/m/l/x)
  • YOLOv9: Lepsze wykorzystanie gradientów, wyższa dokładność
  • YOLOv10: End-to-end detekcja (bez NMS), niższe opóźnienie, lepsza efektywność
  • YOLO-World: Detekcja open-vocabulary, integracja z CLIP-like embeddingami tekstu

Zastosowania

  • Monitoringu wizyjnego i bezpieczeństwa
  • Autonomiczne pojazdy i robotyka
  • Przemysł 4.0 (kontrola jakości)
  • Analiza medyczna i rolnictwo precyzyjne
  • Systemy open-vocabulary (YOLO-World) – wyszukiwanie obiektów po opisie tekstowym

Porównanie wydajności (2026)

YOLOv10 zazwyczaj oferuje najlepszy kompromis między prędkością a dokładnością. YOLO-World jest wybierany tam, gdzie potrzebna jest elastyczność w rozpoznawaniu nowych klas bez retrainowania.

Powiązane pojęcia

Object Detection • Real-time Inference • Ultralytics • Computer Vision • Open-Vocabulary Detection • NMS-free Detection • GELAN • PGI