Wprowadzenie
Kubeflow to otwartoźródłowa platforma zaprojektowana do uruchamiania i zarządzania przepływami uczenia maszynowego (MLOps) na Kubernetes. Umożliwia badaczom i inżynierom danych łatwe skalowanie treningu modeli, eksperymentów, wdrażania i monitorowania w środowiskach produkcyjnych.
Główne komponenty Kubeflow
- Kubeflow Pipelines – budowa i orkiestracja pipeline’ów ML
- Katib – hyperparameter tuning i AutoML
- KServe – serwowanie modeli AI (model inference)
- Jupyter Notebook Controller – zarządzanie notebookami
- TensorFlow Training Operator / PyTorch Operator – rozproszone treningi
- Central Dashboard – centralny interfejs użytkownika
Zastosowania Kubeflow
- End-to-end MLOps w środowiskach enterprise
- Trening dużych modeli językowych (LLM) na klastrach Kubernetes
- Automatyzacja eksperymentów ML
- Wdrażanie modeli w produkcji (real-time inference)
- Multi-tenancy i zarządzanie zasobami dla zespołów data science
- Hybrydowe i multi-cloud środowiska
Zalety i wady
- Zalety: natywna integracja z Kubernetes, skalowalność, otwartoźródłowa, bogaty ekosystem, standaryzacja procesów MLOps
- Wady: stroma krzywa uczenia, złożoność instalacji i utrzymania, wysokie wymagania infrastrukturalne
Najlepsze praktyki (2026)
- Używanie GitOps do zarządzania manifestami Kubeflow
- KServe jako standard do serwowania modeli
- Integracja z Argo Workflows lub Tekton
- Monitorowanie z Prometheus + Grafana + Loki
- Bezpieczeństwo: Istio + Kyverno + Pod Security Policies
- Multi-cluster setup dla dużych organizacji
Powiązane pojęcia
Kubernetes • MLOps • KServe • Kubeflow Pipelines • ArgoCD • MLflow • TensorFlow • PyTorch • Vertex AI • SageMaker