Weight Sharing Techniques

Wprowadzenie

Weight Sharing Techniques to rodzina metod, w których te same wagi (parametry) są używane wielokrotnie w różnych częściach modelu. Technika ta znacząco redukuje liczbę parametrów, poprawia generalizację i umożliwia trenowanie większych modeli przy ograniczonych zasobach obliczeniowych.

Główne typy Weight Sharing

1. Convolutional Weight Sharing

Najbardziej klasyczna forma — te same filtry (jądra) są stosowane do każdego fragmentu obrazu. Dzięki temu CNN-y mają dramatycznie mniej parametrów niż Fully Connected networks.

2. Recurrent Weight Sharing (RNN, LSTM, GRU)

Te same wagi są używane w każdej kroku czasowym (time step). Pozwala to modelom na przetwarzanie sekwencji dowolnej długości.

3. Siamese Networks & Twin Networks

Dwa (lub więcej) identyczne podmodele z dokładnie tymi samymi wagami. Popularne w weryfikacji twarzy, porównywaniu zdań i one-shot learning.

4. ALBERT (A Lite BERT)

Jeden z najbardziej znanych przykładów w LLM-ach. Wszystkie warstwy transformer mają te same wagi (cross-layer parameter sharing). ALBERT ma 18x mniej parametrów niż BERT przy podobnej wydajności.

5. Tied Weights (Wiązane wagi)

Technika stosowana w Autoenkoderach, gdzie wagi warstwy enkodera są wiązane (tied) z wagami dekodera (transponowane).

Zalety Weight Sharing

  • Znaczna redukcja liczby parametrów (często o rząd wielkości)
  • Lepsza generalizacja i mniejsze ryzyko overfittingu
  • Niższe zużycie pamięci i szybszy trening
  • Bardzo biologicznie plausyjne (mózg też wykorzystuje powtarzalne struktury)

Wady i wyzwania

  • Może zmniejszać pojemność modelu (capacity)
  • Trudniejsze uczenie głębokich sieci z wieloma współdzielonymi warstwami
  • Wymaga starannego projektowania architektury

Nowoczesne zastosowania (2026)

  • Mixture of Experts (częściowe weight sharing)
  • Efficient Transformers (Shared Query/Key/Value projections)
  • Multi-Task Learning i Model Merging
  • Parameter-Efficient Fine-Tuning (PEFT) – komplementarne do weight sharing

Powiązane pojęcia

ALBERT • Siamese Networks • Convolutional Neural Networks • Recurrent Neural Networks • Parameter Efficiency • Model Compression • Tied Weights • Cross-Layer Parameter Sharing