Wprowadzenie
Weight Sharing Techniques to rodzina metod, w których te same wagi (parametry) są używane wielokrotnie w różnych częściach modelu. Technika ta znacząco redukuje liczbę parametrów, poprawia generalizację i umożliwia trenowanie większych modeli przy ograniczonych zasobach obliczeniowych.
Główne typy Weight Sharing
1. Convolutional Weight Sharing
Najbardziej klasyczna forma — te same filtry (jądra) są stosowane do każdego fragmentu obrazu. Dzięki temu CNN-y mają dramatycznie mniej parametrów niż Fully Connected networks.
2. Recurrent Weight Sharing (RNN, LSTM, GRU)
Te same wagi są używane w każdej kroku czasowym (time step). Pozwala to modelom na przetwarzanie sekwencji dowolnej długości.
3. Siamese Networks & Twin Networks
Dwa (lub więcej) identyczne podmodele z dokładnie tymi samymi wagami. Popularne w weryfikacji twarzy, porównywaniu zdań i one-shot learning.
4. ALBERT (A Lite BERT)
Jeden z najbardziej znanych przykładów w LLM-ach. Wszystkie warstwy transformer mają te same wagi (cross-layer parameter sharing). ALBERT ma 18x mniej parametrów niż BERT przy podobnej wydajności.
5. Tied Weights (Wiązane wagi)
Technika stosowana w Autoenkoderach, gdzie wagi warstwy enkodera są wiązane (tied) z wagami dekodera (transponowane).
Zalety Weight Sharing
- Znaczna redukcja liczby parametrów (często o rząd wielkości)
- Lepsza generalizacja i mniejsze ryzyko overfittingu
- Niższe zużycie pamięci i szybszy trening
- Bardzo biologicznie plausyjne (mózg też wykorzystuje powtarzalne struktury)
Wady i wyzwania
- Może zmniejszać pojemność modelu (capacity)
- Trudniejsze uczenie głębokich sieci z wieloma współdzielonymi warstwami
- Wymaga starannego projektowania architektury
Nowoczesne zastosowania (2026)
- Mixture of Experts (częściowe weight sharing)
- Efficient Transformers (Shared Query/Key/Value projections)
- Multi-Task Learning i Model Merging
- Parameter-Efficient Fine-Tuning (PEFT) – komplementarne do weight sharing
Powiązane pojęcia
ALBERT • Siamese Networks • Convolutional Neural Networks • Recurrent Neural Networks • Parameter Efficiency • Model Compression • Tied Weights • Cross-Layer Parameter Sharing