Weight Sharing Techniques | Techniki Wspólnego Używania Wag

Wprowadzenie

Weight Sharing Techniques to rodzina metod, w których te same wagi (parametry) są używane wielokrotnie w różnych częściach modelu. Technika ta znacząco redukuje liczbę parametrów, poprawia generalizację i umożliwia trenowanie większych modeli przy ograniczonych zasobach obliczeniowych.

Główne typy Weight Sharing

1. Convolutional Weight Sharing

Najbardziej klasyczna forma — te same filtry (jądra) są stosowane do każdego fragmentu obrazu. Dzięki temu CNN-y mają dramatycznie mniej parametrów niż Fully Connected networks.

2. Recurrent Weight Sharing (RNN, LSTM, GRU)

Te same wagi są używane w każdej kroku czasowym (time step). Pozwala to modelom na przetwarzanie sekwencji dowolnej długości.

3. Siamese Networks & Twin Networks

Dwa (lub więcej) identyczne podmodele z dokładnie tymi samymi wagami. Popularne w weryfikacji twarzy, porównywaniu zdań i one-shot learning.

4. ALBERT (A Lite BERT)

Jeden z najbardziej znanych przykładów w LLM-ach. Wszystkie warstwy transformer mają te same wagi (cross-layer parameter sharing). ALBERT ma 18x mniej parametrów niż BERT przy podobnej wydajności.

5. Tied Weights (Wiązane wagi)

Technika stosowana w Autoenkoderach, gdzie wagi warstwy enkodera są wiązane (tied) z wagami dekodera (transponowane).

Zalety Weight Sharing

Znaczna redukcja liczby parametrów (często o rząd wielkości)
Lepsza generalizacja i mniejsze ryzyko overfittingu
Niższe zużycie pamięci i szybszy trening
Bardzo biologicznie plausyjne (mózg też wykorzystuje powtarzalne struktury)

Wady i wyzwania

Może zmniejszać pojemność modelu (capacity)
Trudniejsze uczenie głębokich sieci z wieloma współdzielonymi warstwami
Wymaga starannego projektowania architektury

Nowoczesne zastosowania (2026)

Mixture of Experts (częściowe weight sharing)
Efficient Transformers (Shared Query/Key/Value projections)
Multi-Task Learning i Model Merging
Parameter-Efficient Fine-Tuning (PEFT) – komplementarne do weight sharing

Powiązane pojęcia

Weight Decay→Weight Initialization Methods→Convolutional Neural Networks→Normalization Techniques→Elastic Weight Consolidation→