BERT | Encyklopedia AI | Encyklopedia AI

Wprowadzenie

BERT (Bidirectional Encoder Representations from Transformers) to model językowy opublikowany przez Google w 2018 roku. Zrewolucjonizował przetwarzanie języka naturalnego (NLP), osiągając wyniki na poziomie człowieka w wielu zadaniach.

Kluczowa innowacja

W przeciwieństwie do poprzednich modeli (takich jak Word2Vec czy wcześniejsze Transformer’y), BERT jest dwukierunkowy (bidirectional). Analizuje tekst jednocześnie z lewej i prawej strony, dzięki czemu rozumie kontekst o wiele lepiej.

Jak działa BERT?

Pre-training – trenowany na ogromnych ilościach tekstu (Wikipedia + BookCorpus) za pomocą dwóch zadań: Masked LM i Next Sentence Prediction
Fine-tuning – po pre-treningu model jest szybko dostrajany do konkretnych zadań (klasyfikacja, pytanie-odpowiedź, NER itp.)

Warianty BERT

BERT-Base – 110 milionów parametrów
BERT-Large – 340 milionów parametrów
RoBERTa – ulepszona wersja od Facebooka
DistilBERT – lżejsza, szybsza wersja
ALBERT, ELECTRA, DeBERTa – dalsze ulepszenia

Znaczenie BERT

Zapoczątkował erę dużych modeli językowych (LLM)
Stały się podstawą dla GPT, T5, Llama i innych
Znacznie poprawił jakość wyszukiwania Google
Umożliwił rozwój zaawansowanych aplikacji NLP

Aktualny status (2026)

Chociaż BERT jest już modelem „klasycznym”, jego architektura i techniki pre-treningu nadal stanowią fundament większości nowoczesnych modeli językowych. W 2026 roku nadal jest używany w produkcji tam, gdzie liczy się niski koszt obliczeniowy i dobra wydajność na konkretnych zadaniach.

Powiązane pojęcia

Dense Prediction Transformer→Next Token Prediction→Pre Training→