Wprowadzenie
Zombi-procesy w chmurze to instancje, kontenery lub połączenia API, które pozostają aktywne mimo że aplikacja „już skończyła pracę” — bo błąd sieci, timeout lub wyjątek nie zamknął sesji. W panelu rozliczeń zużywają zasoby w tle, często bez oczywistego wpisu w logach użytkownika.
Typowe scenariusze przy AI API
- Strumieniowanie odpowiedzi LLM przerwane bez zamknięcia połączenia
- Brak limitu czasu na wywołanie embeddingów lub RAG pipeline
- Ponawianie żądań bez backoff — mnożenie równoległych workerów
- Webhooki lub kolejki bez dead-letter queue i watchdogów
Jak się przed tym bronić?
- Timeouts na każdym poziomie (klient, load balancer, funkcja)
- Graceful shutdown i finally/cleanup w obsłudze błędów
- Alerty budżetowe i limity równoległości w chmurze
- Health checki i automatyczne ubijanie starych instancji